当前位置：首页 > news >正文

Anthropic 开源 Bloom：基于 LLM 的自动化行为评估框架

news 2026/6/11 21:26:02

Anthropic 最近放出了一个叫 Bloom 的开源框架，专门用来测试大语言模型会不会出现某些特定行为。比如模型是不是会阿谀奉承用户、有没有政治倾向、会不会为了自保撒谎或者试图绕过监督机制这类问题。

这个框架跟常规的评估基准不太一样。传统基准都是固定的测试集而 Bloom 会根据你的配置“长”出不同的评估内容，这也是为什么叫这么个植物学的名字。

工作流程：四个阶段搞定评估

Bloom 的整个流程分四步：从你提供的"种子"配置开始，最后生成完整的行为评估报告。配置文件里可以设置全局参数、每个 agent 用什么模型、推理时给多少算力这些。跑完之后能看到单次执行的指标（引发难度、评估有效性之类），还有整个测试套件的统计数据（比如多样性），配套的转录查看器能让你直接看对话记录。

https://avoid.overfit.cn/post/2f8cc3a0b3154e6f93ecdd4be32c47d8

http://www.gsyq.cn/news/148904.html

相关文章：

基于深度学习的淘宝用户购物可视化与行为预测系统设计（源代码+文档+PPT+调试+讲解）

2025最新！10个AI论文网站测评：本科生写论文救星大公开

完整教程：学算法总换设备？Hello-Algo+cpolar 让学习进度随身带

敏捷咨询：从落地到深耕的全流程赋能之路

基于深度学习的蘑菇种类识别系统的设计与实现（源代码+文档+PPT+调试+讲解）

Redis 集群模式Redis Cluster

Alpha 阶段项目复审报告

中文编程语言“华文 (HuaWen)”综合设计方案框架

读人机沟通法则：理解数字世界的设计与形成05机器可以被测量

2025最新！专科生必备8个AI论文工具：开题报告写作全测评

【机器学习】-超参数（模型“调音师”的魔法）

virtualbox键盘多个按键同时按下失灵，打字难受

共享指针——弱引用

Hugging Face smolagents曝高危漏洞：反序列化缺陷可致远程代码执行

自考必备！8个AI论文软件推荐，轻松搞定毕业论文格式规范！

Bootstrap5 按钮组

spec kit ai code review

mysql的跨库查询

基于Python豆瓣电影数据可视化分析设计与实现（毕设源码+文档）

GA-ELM土壤分类

Perl 基础语法

Day39bootstrap--组件

SQL INSERT INTO 语句详解

拒绝转圈圈！AI Ping 注入 Coze，带你瞬发体验限免版 GLM-4.7 与 MiniMax-M2.1

Omdia发布《2025全球企业级MaaS市场分析》，火山引擎居全球第三

Bootstrap4 创建一个网页

干货盘点｜新电脑装机必备的 10 个 Windows 软件，不然用起来太难受！

WinCC Unified V19 ES/RT 安装

Perl POD 文档