当前位置: 首页 > news >正文

技术速递|提升密钥扫描可信度:大规模降低误报

作者:Mariko Wakabayashi
排版:Alan Wang
减少干扰信息后,安全告警会更可靠、更便于处置。本文将介绍我们如何借助具备上下文感知能力的大语言模型推理优化核验流程。

密钥扫描在保护开发者与企业组织方面发挥着关键作用。它能够及早捕获泄露的凭证,避免微小疏漏演变为真实安全事件。

在 GitHub 的海量业务规模下,即便是轻微的低效问题也会造成显著使用阻碍。过多的误报会降低告警信息的可信度。

当告警信息繁杂冗余时,开发者需要耗费大量时间甄别信息,用于修复真实安全隐患的时间随之减少。长此以往,安全问题处置效率会下降,用户对该系统的信赖度也会降低。

为解决这一难题,GitHub 与微软安全与人工智能部门的智能体攻防团队展开合作,为 GitHub 的密钥扫描校验功能引入更多场景化逻辑推理能力。本次合作采用了 Agentic Secret Finder 的验证方案,这套完整的检测验证系统可结合代码上下文判断疑似密钥,而非仅依靠匹配类密钥模式完成识别。借助该方案,GitHub 得以在保障密钥扫描原有检测覆盖范围的前提下,探索减少低价值告警的可行路径。

GitHub 当前的密钥扫描能力

GitHub 密钥扫描结合了基于模式的检测与基于 AI 的检测,用于识别潜在的密钥。其中,基于模式的检测能够捕获已知的密钥格式,例如用于 Token 和 API Key 的合作伙伴模式;基于 AI 的通用密钥检测则进一步扩展了覆盖范围,可以识别那些不符合已知提供商模式的非结构化密钥,例如密码等信息。

在提供商模式的密钥检测方面,GitHub 已经在超大规模场景下实现了业界领先的准确率,能够处理数十亿次代码推送,并在数百万个代码仓库中保护数千万开发者。

随着 GitHub 将能力扩展到 AI 驱动的密钥检测,一个新的挑战也随之出现:如何让 AI 检测出的密钥在准确率上接近提供商模式检测所达到的同等高标准。此次合作正是围绕这一目标展开,将 GitHub 的大规模检测流水线与基于大语言模型的上下文验证能力相结合,以提升告警质量并增强开发者信任。

我们的方法:让密钥扫描告警具备可信度

只有能快速区分需处理告警与无关提示,密钥扫描才能发挥最大价值。

GitHub 原本已设置降噪防护机制,但部分形似密钥的字符仍需结合更多上下文,才能判断是否属于真实泄露。为提升这类告警的可信度,我们在校验流程中新增多层逻辑推理判断。

系统会分析检测到的字符在代码中的出现形式,以此更精准区分真实泄露内容与仅外观敏感、实际无风险的字符。这能帮助开发者减少排查低价值告警的时间,将更多精力用于处理真正关键的安全隐患。

在流程中的定位

这一方案直接基于现有系统搭建。检测模块持续生成密钥候选项,校验环节对候选项进行评估。更强的上下文感知能力,让系统能更精准区分真实密钥与无关干扰信息。

最终实现更高的检测精准度,且无需修改上游检测逻辑、也不会降低信息覆盖范围。

工作原理

验证环节的核心难点在于确定需要提供哪些上下文信息。

仅一小段代码片段,通常不足以判断某段内容是否为真实密钥;但如果传入完整文件或代码仓库,又会引入大量冗余干扰,增加计算成本和响应延迟。

我们并不是提供更多上下文,而是提供更高质量的上下文。

相比直接发送大段代码,我们会提取一组高价值的信息,用以说明该数值的实际使用方式。例如:我们会分析一个值是否被赋值给某个变量,以及它是否在后续被传递到 API 请求、身份验证请求头、数据库客户端或云服务 SDK 调用中。模式匹配可以判断一个值看起来像密钥,但无法判断它是否真的被当作密钥使用。而结合周围的使用上下文,模型无需审阅整个文件或代码仓库,就能够更准确地区分真正存在泄露风险的密钥与随机 UUID、不透明字符串等容易引发误报的内容,从而有效减少误报。

聚焦上下文,而不是更多数据

人们很容易认为,要提升检测准确率,就需要分析更多代码。然而,事实恰恰相反。

大多数误报都可以通过聚焦于文件级上下文得到有效识别。真正重要的并不是模型看到多少代码,而是它是否获得了正确的信号。

在很多情况下,只需分析一个值在单个文件中的使用方式,就足以判断它是否是真正的密钥。那些看起来像占位符、测试数据或未被使用的配置项,通常无需更深入的分析便可以被过滤掉。

这种方法兼顾了效果与实用性:既能够保持较高的检测准确率,又具备较低的响应延迟,同时还能在大规模代码仓库中实现高效扩展。

实践结果:有效降低误报率

我们在数百条由客户确认的误报告警上对这一方案进行了评估。

最初设定的目标是将误报率降低65%,最终实际达到了75.76%,不仅超出了预期目标,同时依然保持了优异的检测能力。

对于开发者而言,这意味着告警噪声显著减少,真正需要关注和处理的告警占比进一步提升,让密钥扫描的结果更加可信、更具可操作性。

这一改进会直接体现在开发者体验中。随着无关告警的减少,开发者更容易信任自己看到的结果。用于排查噪声的时间更少,真正的问题能够被更快地优先处理并得到修复。

下一步

我们将继续在更大规模的数据集和真实线上流量中评估这一方法,同时不断优化上下文的提取与使用方式,以进一步提升验证效果。

在大规模场景下,降低误报一直是持续存在的关键需求。这项工作聚焦于在最关键的环节提升信号质量,让告警更值得信任,也更易于采取行动。

我们的目标很简单:更少干扰、更清晰的信号,以及对真实风险更快速的响应。

从今天开始为你的组织运行风险评估,或了解更多关于密钥扫描的信息。

http://www.gsyq.cn/news/1534231.html

相关文章:

  • BepInEx 6.0终极指南:Unity游戏插件框架的完整架构解析与实战教程
  • Python时间序列实战:从数据清洗到滚动预测的生产级路径
  • Android 开发问题:Unable to find explicit activity class
  • 电动百年:谁消灭了电动车?
  • okbiye:论文 AI 痕迹筛查与重复率优化一站式科研辅助平台
  • 2026济南旧金铂金白银回收高信赖门店 TOP 线下实体商家电话与门店地址一览 - 诚金汇钻回收公司
  • 2026年浙江正规光疗机厂商大盘点,看看都有哪些实力派!
  • Python functools模块高阶函数实用指南
  • MPC8315E DMA控制器:从原理到实战的嵌入式数据传输优化指南
  • 程序员的心理学学习笔记 - 锚定效应
  • 日期比较函数isBeforeOrSame的跨语言实现与避坑指南
  • GPT-5.5 Instant:响应压缩与记忆源驱动的即时智能范式
  • SSH 登录暴力破解日志检测脚本
  • 3an推客是什么平台?资深运营深度解析合规电商增长工具
  • 2026广元旧金铂金白银回收高信赖门店 TOP 线下实体商家电话与门店地址一览 - 诚金汇钻回收公司
  • 终极Navicat无限试用重置:macOS用户告别14天限制的完整指南
  • 2026银川市黄金回收白银回收铂金回收彩金回收TOP5权威榜单:正规靠谱门店实地考察,高性价比首选+联系方式推荐 - 前途无量YY
  • 终极解放双手:Alas碧蓝航线全自动脚本完全指南 [特殊字符]
  • 2026大同旧金铂金白银回收高信赖门店 TOP 线下实体商家电话与门店地址一览 - 诚金汇钻回收公司
  • 大连西岗区旧金镯子出手踩坑多?实测这家回收店结算速度快人一步 - 逸程
  • GPT-4o真实能力解析:低延迟多模态与工程落地实践
  • 【花雕动手做】行空板 K10 系列实验之音频录放 WS2812B 背景音乐小灯
  • PXD10 Flash控制器实战:从原理到OTA、ECC与高可靠存储应用
  • MPC860 PowerQUICC通信处理器:架构解析与嵌入式开发实战
  • CEO通知5100名员工:今年不涨薪了,钱要投给AI!
  • 如何查看AIX系统HBA信息
  • 2026枣庄市黄金回收白银回收铂金回收彩金回收TOP5权威榜单:正规靠谱门店实地考察,高性价比首选+联系方式推荐 - 前途无量YY
  • TX3E/FMRX3MS 二功能遥控车IC+内置马达驱动
  • Splashtop远程桌面核心技术解析:低延迟图形传输与实战应用
  • 2026年6月16日海安改灯本地走访记:施工环境、密封和调光先核对哪几项 - Ayu8888