当前位置：首页 > news >正文

用多模型 AI 辅助排查接口超时：从日志分析到测试用例补全

news 2026/6/22 18:42:45

线上接口偶发超时，是后端开发和测试同学都很头疼的问题。它不像语法错误那样稳定复现，也不像接口 500 那样容易定位。很多时候，问题只表现为“某个时间段变慢”“个别用户请求超时”“压测时 P95 突然升高”。

这类问题很适合用 ChatGPT、Claude、Gemini、DeepSeek 等 AI 大模型辅助分析，但前提是：不要把 AI 当成自动修 Bug 的工具，而是把它当成“日志整理、排查路径生成、测试补全”的助手。

本文以一个 Java 后端接口超时案例为例，演示如何用多模型 AI 辅助完成日志分析、慢查询判断、代码 Review、测试用例补全和复盘文档整理。

一、案例背景：订单详情接口偶发超时

假设有一个订单详情接口：

http

GET /api/orders/{orderId}

线上监控显示：

平均响应时间：120ms；
P95 响应时间：900ms；
偶发请求超过 3s；
超时集中在每天 10:00 到 11:00；
接口本身没有明显报错。

简化后的代码如下：

java

public OrderDetailVO getOrderDetail(Long orderId) { Order order = orderMapper.selectById(orderId); List<OrderItem> items = orderItemMapper.selectByOrderId(orderId); List<PaymentRecord> payments = paymentMapper.selectByOrderId(orderId); List<AfterSaleRecord> afterSales = afterSaleMapper.selectByOrderId(orderId); return OrderDetailVO.from(order, items, payments, afterSales);}

从代码看，逻辑并不复杂。但接口慢可能来自多个方向：

SQL 没走索引；
某张关联表数据量过大；
数据库连接池等待；
上游服务调用阻塞；
高峰期缓存穿透；
单个订单关联明细过多；
日志打印或序列化成本过高。

这时直接让 AI “帮我修复接口超时”并不靠谱。更好的方式是先让它帮助我们整理排查路径。

二、第一步：用 AI 整理排查清单

可以先准备脱敏后的信息：

text

接口：GET /api/orders/{orderId}现象：P95 约 900ms，偶发超过 3s时间：每天 10:00 - 11:00 较明显依赖：MySQL、Redis，无外部 HTTP 调用相关表：orders、order_items、payment_records、after_sale_records现有代码：分别查询订单、明细、支付记录、售后记录后组装返回

Prompt 示例：

text

你是一名 Java 后端性能排查助手。 请根据下面的接口现象和代码信息，整理接口超时的排查路径。 要求：1. 按数据库、缓存、代码逻辑、并发流量、数据分布、监控指标分类2. 每类给出需要收集的证据3. 不要直接下结论4. 输出 Markdown 表格

比较好的输出应该是这种结构：

分类	可能方向	需要收集的证据
数据库	某些 SQL 未命中索引	慢查询日志、执行计划、索引信息
数据分布	单个订单明细数量过多	订单明细数量分布、最大值、P95
并发流量	高峰期数据库连接等待	连接池活跃数、等待数、线程堆栈
缓存	热点订单或缓存失效	Redis 命中率、key 过期时间
代码逻辑	多次串行查询累积耗时	每段查询耗时埋点
序列化	返回对象过大	响应体大小、字段数量

这一步的目标不是让 AI 直接定位问题，而是让排查不遗漏方向。

三、第二步：把日志喂给模型前先脱敏

不要把完整生产日志、用户 ID、手机号、地址、Token 直接提交给 AI。可以先整理成脱敏摘要。

原始日志可能是这样：

text

2026-06-18 10:23:11 traceId=abc123 userId=987654 orderId=202606180001 cost=3210mssql1=select * from orders where id=?sql2=select * from order_items where order_id=?sql3=select * from payment_records where order_id=?sql4=select * from after_sale_records where order_id=?

整理成：

text

traceId=A接口总耗时：3210msorders 查询：12msorder_items 查询：2860mspayment_records 查询：18msafter_sale_records 查询：25msorder_items 返回行数：1842时间段：10:23

再使用 Prompt：

text

请分析下面的接口耗时摘要。 要求：1. 判断最值得优先排查的方向2. 说明还需要补充哪些数据3. 给出下一步验证动作4. 不要编造数据库结构 日志摘要：【粘贴脱敏后的耗时信息】

AI 可能会指出：order_items查询耗时占比过高，需要优先查看执行计划、索引和单订单明细数量分布。

四、第三步：让 AI 辅助分析 SQL 和索引

假设当前 SQL 是：

sql

SELECT *FROM order_itemsWHERE order_id = ?ORDER BY created_at DESC;

表结构简化如下：

sql

CREATE TABLE order_items ( id BIGINT PRIMARY KEY, order_id BIGINT NOT NULL, sku_id BIGINT NOT NULL, quantity INT NOT NULL, created_at DATETIME NOT NULL);

可以继续让 AI 分析：

text

请审阅下面的 SQL 和表结构。 要求：1. 判断该查询可能需要什么索引2. 说明原因3. 给出验证方式4. 不要直接假设数据量，需说明依赖哪些统计信息 SQL：【粘贴 SQL】 表结构：【粘贴 DDL】

可能得到的建议：

sql

CREATE INDEX idx_order_items_order_id_created_atON order_items(order_id, created_at);

但这里要注意：AI 给出的索引只能作为建议，不能直接上线。还需要用真实环境验证：

sql

EXPLAINSELECT *FROM order_itemsWHERE order_id = 202606180001ORDER BY created_at DESC;

需要重点看：

type是否从ALL变成更合理的访问方式；
key是否命中目标索引；
rows预估扫描行数是否下降；
是否出现Using filesort；
写入频率是否会因新增索引明显受影响。

五、第四步：让不同模型承担不同任务

多模型对比不是为了选一个“永远正确”的答案，而是为了发现盲点。实际使用中可以这样分工：

模型	更适合的任务	在本案例中的用法
ChatGPT	通用问题拆解、代码草稿、排查步骤	生成接口超时排查清单
Claude	长日志归纳、复盘文档、上下文一致性检查	整理多条 trace 的共同特征
Gemini	表格化整理、多源资料摘要	汇总慢查询、监控指标、压测结果
DeepSeek	中文技术解释、SQL 思路、代码可读性检查	解释执行计划和索引设计思路

例如，同一份脱敏日志可以让两个模型分别分析：

text

请基于这些接口耗时记录，找出共同特征。要求：1. 输出可能原因排序2. 每个原因给出证据3. 标记证据不足的地方4. 不要给出未经验证的结论

如果两个模型都指出order_items查询异常，就说明这个方向值得优先验证。如果一个模型关注索引，另一个模型提醒“单订单明细数量异常”，也能帮助我们避免只盯着 SQL。

六、第五步：补充代码层面的防护

假设验证后发现，部分订单确实存在大量明细，且详情页并不需要一次返回全部字段。可以考虑：

明细分页；
只返回必要字段；
对历史大订单做特殊展示；
增加查询耗时埋点；
对异常大订单记录监控事件。

示例伪代码：

java

public OrderDetailVO getOrderDetail(Long orderId) { Timer timer = Timer.start(); Order order = orderMapper.selectById(orderId); List<OrderItem> items = orderItemMapper.selectSimpleItemsByOrderId(orderId); if (items.size() > 500) { log.warn("large_order_items orderId={}, itemCount={}", orderId, items.size()); } metrics.record("order.detail.query.cost", timer.stop()); return OrderDetailVO.from(order, items);}

同时，SQL 不建议继续使用SELECT *：

sql

SELECT id, order_id, sku_id, quantity, created_atFROM order_itemsWHERE order_id = ?ORDER BY created_at DESC;

AI 可以帮助发现这些“可读性和可维护性问题”，但是否调整接口返回结构，需要和产品、前端、测试共同确认。

七、第六步：让 AI 生成回归测试用例

性能问题修复后，不能只看一次请求变快，还需要补测试。可以让 AI 根据问题背景生成用例清单。

Prompt 示例：

text

请根据订单详情接口超时问题，生成回归测试用例。 要求：1. 覆盖正常订单、大明细订单、无明细订单、历史订单2. 包含性能观察指标3. 区分接口功能测试和性能验证4. 输出 Markdown 表格

示例结果：

用例	输入条件	预期结果	观察指标
普通订单查询	订单包含 3 条明细	返回订单详情	响应时间稳定
大明细订单查询	订单包含 1000 条明细	接口不超时或按设计分页	P95、响应体大小
无明细订单查询	订单存在但无明细	返回空明细列表	无异常
历史订单查询	查询一年前订单	返回正确数据	SQL 耗时
并发查询	高峰流量模拟	无大量连接等待	连接池等待数