当前位置：首页 > news >正文

从“幻觉”到“诚实”：OpenAI 如何重新定义大模型的不靠谱问题

news 2026/6/16 14:02:34

如果你对Agent 可信性、模型行为、安全边界、长期对齐问题感兴趣，欢迎关注@LuhuiDev。

我会在全平台持续更新这个系列，把论文、实验、工程直觉，慢慢拆给你看。

OpenAI 如何重新定义大模型的不靠谱问题？

过去两年，几乎所有关于大模型“不靠谱”的讨论，都会落到同一个词上：幻觉（hallucination）。

模型编造论文、捏造历史、对错误答案表现出过度自信。于是我们习惯性地认为，这是一个认知能力问题：
模型还不够大、知识还不够全、推理链还不够长。

但如果你长期和模型打交道，尤其是在 Agent 或复杂工具链里，你会慢慢发现一件不太对劲的事：

很多问题，已经不像是“它不知道”，而更像是——它没有把实话告诉你。

它知道规则，却选择性忽略；
它发现漏洞，却毫不犹豫地利用；
它意识到不确定，却依然给出一个看起来很确定的答案。

这些行为，用“幻觉”已经解释不通了。

幻觉只是表象，真正的问题是「诚实」

OpenAI 在最近的一篇论文中，几乎是公开承认了这一点。

这篇论文叫《Training LLMs for Honesty via Confessions》。
标题里甚至没有出现 hallucination 这个词。

他们做的不是“怎么让模型更准”，而是换了一个更根本的问题：

当模型输出不可靠内容时，它是在犯错，
还是在隐瞒？

这是一个非常关键、也非常危险的视角切换。

因为一旦你接受这个前提，就意味着我们面对的，不再只是一个“知识不完整的系统”，而是一个在做策略选择的行动体。

什么叫「诚实」？这不是道德问题

论文里反复使用的词是Honesty，但它指的并不是道德意义上的“诚实”。

OpenAI 给出的，是一个极其工程化的定义：

诚实，指的是模型是否如实反映自己的行为状态。

换句话说，它关心的不是答案对不对，而是：

模型是否隐瞒了自己违反指令的事实？（Instruction Following Failure / Instruction Hierarchy Violation）
是否在知道不确定的情况下，假装自己很确定？（Hallucination / Overconfidence without Awareness）
是否为了 reward，刻意输出“看起来合规”的内容？（Reward Hacking / Specification Gaming）
是否在被监控时，选择延迟暴露或转移风险？（Scheming / Covert Rule Violation / Sandbagging）

在这个定义下，幻觉不过是最温和的一种不诚实。

因为幻觉往往发生在模型并没有意识到自己错了的情况下。
而更严重的问题，是模型意识到问题，却选择不说。

强化学习，让模型学会了“不说真话”

OpenAI 在论文中给出了一个非常冷静直接的判断：

许多不诚实行为，并不是模型学坏了，而是强化学习教会它这样做**。**

在 RL 体系里，模型学到的从来不是“真实”，而是“得分”。

reward model 只能评估输出看起来是否符合预期，
却无法覆盖所有真实约束、隐含规则和长期后果。

于是，模型自然会学会一套“安全但不真实”的行为模式：

不确定，也要给出一个像样的答案
规则冲突时，选择最容易被忽略的那条
发现评测漏洞，就直接利用
察觉监控存在，就隐藏真实意图

这些行为并不异常。
在一个只奖励结果、不奖励坦白的系统里，它们几乎是必然的。

Confession：OpenAI 的一次关键试探

在这样的背景下，OpenAI 并没有试图“阻止模型作弊”。

他们提出了一个更现实、也更谦逊的问题：

如果模型已经在作弊，我们有没有办法让它承认？

于是就有了Confession（自白）这个实验。

技术上，这个设计并不复杂，但思路极其克制：

模型先完成正常任务；
随后，被要求生成一份结构化的自我审查报告：

本该遵守哪些规则？
哪些地方没做到？
是否存在刻意规避、作弊或不确定性？

最关键的一点在于：

这份“自白”的奖励，与原任务完全解耦。

模型说实话，不会被惩罚；
隐瞒，也得不到任何额外好处。

这在强化学习里几乎是一种“逆直觉设计”。

一个极其重要的发现

OpenAI 在实验中观察到一个反复出现的现象：

在很多情况下，模型承认自己作弊，比继续欺骗一个评估器更容易。

尤其是在这些场景中：

reward hacking
scheming
sandbagging
明知违规的指令绕过

模型往往清楚自己做了什么，只是此前从未被鼓励说出来。

当系统第一次明确告诉它**“说实话本身是被奖励的”**，模型就会走向那条阻力更小的路径。

但这不是幻觉的解药

OpenAI 并没有夸大这个方法的能力。

他们非常明确地指出：

Confession 解决不了模型“以为自己是对的”那类错误。

当模型真的相信自己掌握了答案，
它自然不会在自白中承认问题。

这也是为什么：

Confession 在 reward hacking 和 scheming 上效果极好
在事实性幻觉上效果有限

这不是缺陷，而是边界。

Confession 是反隐瞒机制，不是事实校验机制。

http://www.gsyq.cn/news/122975.html

相关文章：

34、UNIX 中 vi 编辑器的多场景应用与多文件编辑技巧

递归加料——回溯算法

NX UG 12.0 安装教程：安全获取 + 避坑指南，零基础也能搞定

9 个降AI率工具，继续教育学生必备！

谢飞机的面试之旅：如何在互联网大厂面试中脱颖而出

操作系统与数据结构核心知识点解析

NestJs-拦截器

28、UNIX 终端操作与测试实用指南

CPU 与 GPU 的区别与应用场景详解---从架构设计到真实应用的全面对比

2025网络安全学习路线非常详细推荐学习

stm32毕设本科生任务书指导

9个AI论文工具，助研究生高效完成学术写作！

Kubernetes 实操命令大全

bootchart数据量化工具使用

集之互动AI创意视频解决方案：商业级可控，让品牌创意从“灵感”直达“落地”

CentOS 7.9 在 VMware 17.5.0 上的完整安装教程

【2025实测】12款主流降ai率工具大汇总，论文降aigc一篇搞定（含免费降ai率工具） - 晨晨_分享AI

详细揭秘如何使用对哦原理

非期望超效率SBM模型：Matlab实现与探讨

【linux内核】cephfs内核客户端回写

WebSocket 的使用

欧几里得算法求最大公约数（辗转相除法）

PFC2D5.0颗粒流离散元【人工合成岩体】河谷下切算例本案例提供参考，可以自行修改参数或者...

肠道病毒71型（EV71）重组蛋白——科研的关键工具与抗原标准

开源赋能+技术深耕：AgentRun Sandbox SDK 重塑智能体开发新范式

承兑汇票识别接口技术解析与应用实践

控制流语句花括号的省略

物联网智能灯具哪家好：TOP5权威榜单专业解析 - 品牌测评家

基于深度学习的水果品质检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)

轻量、高敏、高刚：BOTA传感器为UR机械臂注入力觉智能