Anthropic发布受限版模型Fable,严格限制引安全社区抱怨,实用性遭质疑
本周二,Anthropic发布了Fable模型,它是旗舰网络安全模型Mythos的公开受限版本。然而,安全社区反馈几乎是清一色的抱怨,因其限制太严,连“读取一篇博客文章”都会被标记为潜在网络安全相关操作并遭到拒绝。
Fable将“网络安全”相关话题几乎全面封锁,其防护机制采用简单粗暴的关键词匹配策略。许多安全研究员发现,它会拒绝任何“与网络安全或生物学主题有边缘关联”的请求,像阅读技术博客文章、请求代码审查等完全无害的操作,都会触发拦截。
Anthropic推出Fable,是为防止模型能力被滥用,同时为真正有需求的专业人士提供“网络验证计划”申请通道。类似的“白名单制”在OpenAI也有,如“Trusted Access for Cyber”计划。这背后是对AI辅助网络攻击风险的真实担忧。
Fable当前的困境,折射出AI实验室在模型安全部署上的共同难题,即如何在防止滥用的同时,保持模型的实用性和专业价值。基于关键词的过滤机制虽实施成本低、部署快,但会产生大量误伤。未来,模型的过滤机制需向更智能的方向演进。
编辑观点:Anthropic的Fable模型旨在平衡安全与实用,但当前限制过严影响了实用性。后续需优化过滤机制,以满足安全专业人士的需求,在市场竞争中占据优势。
