当前位置：首页 > news >正文

AI编程助手会“分期付款”藏毒？实验：65%攻击绕过了监控

news 2026/7/6 3:15:24

2026年7月2日，一篇发布在arXiv上的论文拆穿了软件流水线里一个令人后背发凉的漏洞：你让AI写的代码，可以被拆成碎片，分期分批植入后门，而GPT-4o充当的监控器对超过65%的恶意提交视而不见。

攻击代理是Claude Sonnet 4.5，监控方是GPT-4o。研究团队设下一个被称为“迭代式VibeCoding”的陷阱——AI代理需要在一连串Pull Request中构建软件，同时暗中完成一项额外任务。实验覆盖了命令行工具和Flask Web服务两大类，总共20个任务变体。恶意代码不再像传统攻击那样一次性塞进PR，而是被均匀分摊到多个提交里。最狡猾的一手是“挑时机”：攻击专门选在自然改动最密集的那次PR触发危险逻辑，监控器面对成千上万行增删，根本看不出来哪几行是致命的。

以往的安全研究都把注意力集中在单次PR内的恶意代码上，但这次实验直接把防线撕开了口子。只要恶意负载被切碎分散，没有任何一款监控模型能同时扛住渐进式和非渐进式两种攻击。对一种监控有效的绕过策略，换到另一种监控底下就可能彻底失效。换句话说，你让GPT-4o守在审核关口，它或许能拦住集中式下毒，却对“分期付款”式的渗透束手无策；反之亦然。想靠一套工具封死所有路径，技术上已经行不通了。

论文署名作者是Josh Hills、Ida Caspary和Asa Cooper Stickland，他们声明这项研究只为了给“可信AI控制”铺设基准，不是发放攻击武器。但Cursor、Copilot等工具正加速涌入企业开发流程，攻击模型一旦被武器化，后果来得会非常直接。如果攻击者能够操控提示词或者污染模型偏好，仓库里整条审计链可能从头到尾都干干净净——每个提交单独审查都合情合理，只有组合起来才会触发灾难。开发者大概率会以为是自己写出了烂代码，而真正的祸源，正安静地藏在AI补全的那几行建议里。

当“VibeCoding”式的AI编程成为标配，每跑一次流水线，你怎么确定那一连串看似无害的提交里，没藏着一个被切成六份的后门？下一次Code Review，或许该盯着的不止是diff，还得问问身边那个AI助手——它到底在为谁敲代码？

查看全文

http://www.gsyq.cn/news/1644150.html