当前位置：首页 > news >正文

技术速递｜提升密钥扫描可信度：大规模降低误报

news 2026/6/16 9:11:21

作者：Mariko Wakabayashi
排版：Alan Wang
减少干扰信息后，安全告警会更可靠、更便于处置。本文将介绍我们如何借助具备上下文感知能力的大语言模型推理优化核验流程。

密钥扫描在保护开发者与企业组织方面发挥着关键作用。它能够及早捕获泄露的凭证，避免微小疏漏演变为真实安全事件。

在 GitHub 的海量业务规模下，即便是轻微的低效问题也会造成显著使用阻碍。过多的误报会降低告警信息的可信度。

当告警信息繁杂冗余时，开发者需要耗费大量时间甄别信息，用于修复真实安全隐患的时间随之减少。长此以往，安全问题处置效率会下降，用户对该系统的信赖度也会降低。

为解决这一难题，GitHub 与微软安全与人工智能部门的智能体攻防团队展开合作，为 GitHub 的密钥扫描校验功能引入更多场景化逻辑推理能力。本次合作采用了 Agentic Secret Finder 的验证方案，这套完整的检测验证系统可结合代码上下文判断疑似密钥，而非仅依靠匹配类密钥模式完成识别。借助该方案，GitHub 得以在保障密钥扫描原有检测覆盖范围的前提下，探索减少低价值告警的可行路径。

GitHub 当前的密钥扫描能力

GitHub 密钥扫描结合了基于模式的检测与基于 AI 的检测，用于识别潜在的密钥。其中，基于模式的检测能够捕获已知的密钥格式，例如用于 Token 和 API Key 的合作伙伴模式；基于 AI 的通用密钥检测则进一步扩展了覆盖范围，可以识别那些不符合已知提供商模式的非结构化密钥，例如密码等信息。

在提供商模式的密钥检测方面，GitHub 已经在超大规模场景下实现了业界领先的准确率，能够处理数十亿次代码推送，并在数百万个代码仓库中保护数千万开发者。

随着 GitHub 将能力扩展到 AI 驱动的密钥检测，一个新的挑战也随之出现：如何让 AI 检测出的密钥在准确率上接近提供商模式检测所达到的同等高标准。此次合作正是围绕这一目标展开，将 GitHub 的大规模检测流水线与基于大语言模型的上下文验证能力相结合，以提升告警质量并增强开发者信任。

我们的方法：让密钥扫描告警具备可信度

只有能快速区分需处理告警与无关提示，密钥扫描才能发挥最大价值。

GitHub 原本已设置降噪防护机制，但部分形似密钥的字符仍需结合更多上下文，才能判断是否属于真实泄露。为提升这类告警的可信度，我们在校验流程中新增多层逻辑推理判断。

系统会分析检测到的字符在代码中的出现形式，以此更精准区分真实泄露内容与仅外观敏感、实际无风险的字符。这能帮助开发者减少排查低价值告警的时间，将更多精力用于处理真正关键的安全隐患。

在流程中的定位

这一方案直接基于现有系统搭建。检测模块持续生成密钥候选项，校验环节对候选项进行评估。更强的上下文感知能力，让系统能更精准区分真实密钥与无关干扰信息。

最终实现更高的检测精准度，且无需修改上游检测逻辑、也不会降低信息覆盖范围。

工作原理

验证环节的核心难点在于确定需要提供哪些上下文信息。

仅一小段代码片段，通常不足以判断某段内容是否为真实密钥；但如果传入完整文件或代码仓库，又会引入大量冗余干扰，增加计算成本和响应延迟。

我们并不是提供更多上下文，而是提供更高质量的上下文。

相比直接发送大段代码，我们会提取一组高价值的信息，用以说明该数值的实际使用方式。例如：我们会分析一个值是否被赋值给某个变量，以及它是否在后续被传递到 API 请求、身份验证请求头、数据库客户端或云服务 SDK 调用中。模式匹配可以判断一个值看起来像密钥，但无法判断它是否真的被当作密钥使用。而结合周围的使用上下文，模型无需审阅整个文件或代码仓库，就能够更准确地区分真正存在泄露风险的密钥与随机 UUID、不透明字符串等容易引发误报的内容，从而有效减少误报。