当前位置: 首页 > news >正文

主流模型术数题「翻车」,Tianfu Agent准确率达50%逼近人类Top20选手水平

没有信息泄漏的专业术数题库面前,主流模型「翻车」,Tianfu Agent表现亮眼

没有信息泄漏的专业术数题库面前,Claude、GPT等主流模型集体「翻车」。但一个叫Tianfu Agent的系统,却一举将准确率提升至50%,逼近本届术数大赛人类Top20选手的53.5%平均水平。

评测背景与主流模型测试结果

把当前最先进的通用大模型,放在中国传统术数专业选择题(四选一)面前,评测对通用模型已做「让步」,所有基线模型的Prompt中都提供预计算的盘面数据,直接考察推理能力。DestinyLinker研究团队基于术数大赛(HKJFMA主办,3069名选手参与)的官方题库的评测集基准Mingli - Bench,测试当下主流大模型,技术报告和测试结果在x上获百万关注。结果意外,这些模型在几乎无信息泄漏的最新比赛选择题上,准确率在23%到40%之间徘徊,而四选一选择题随机猜测线是25%。

Tianfu Agent研发与成果

为验证模型能力能否支撑专业术数推理,该团队研发了Tianfu Agent系统,实现针对中国传统术数领域harness工程系统,包括200多个原子工具、3大流派规则函数库、多Sub - Agent协作及全链路置信度量化机制,一举达到50%的截尾准确率,逼近本届赛事人类Top20选手平均水平。

Harness之路:编码智能体经验不足

试案例用了马斯克命盘,测试中的1971/12/30非其真实生日,因他出生于南半球,需对生辰进行节气转换。Claude Code、Cursor等工具在复杂工程任务中表现良好,是因其被放进领域专用工具环境。Tianfu Agent将同样逻辑搬进中国传统术数领域,采用多Sub - Agent协作的渐进式发现策略,但仅依靠Coding Agent成功经验不够,术数领域涉及大量数据逻辑运算,规则选择需经验,且缺乏「单元测试」辅助验证手段,易积累偏差,其他垂直领域如医疗、法律等可能面临类似困境。

200多个工具管理:四级可见性控制

通用Agent用十几个工具即可,200 +工具带来的工程问题是模型选不对。研究团队按「LLM可理解性」和「可穷举性」将工具分成四级,机制核心是动态控制工具可见范围,避免选项过载导致选择退化,此思路对其他垂直领域Agent开发有参考价值。

繁杂规则使用:封装成可调用函数

通用Agent常把规则写进System Prompt或Few - shot让模型「记住并遵循」,但术数领域规则繁杂、适用条件耦合、流派矛盾,靠记忆遵循会导致选择性忽略和推理路径不可控。Tianfu Agent把复杂规则封装成带元数据的可调用函数,人类专家预先标注相关信息,函数输入盘面状态返回结论和置信度,只在满足验证时注入上下文,将LLM从「记规则的考生」变成「调规则的工程师」。

无单元测试:三层不确定性量化

编码Agent有「测试」验证手段,术数领域等绝大多数专业领域缺乏「单元测试」。Tianfu Agent引入不确定性量化,在工具输出层、Sub - Agent层、多流派合参层给出置信度评估,虽不能替代「自动验证」,但在缺乏验证手段领域,能为上层决策提供量化参考。

harness设计哲学与对垂直领域Agent落地启示

这套harness设计哲学是在Tianfu Agent里,工具不仅是计算函数,还包括规则、子推理流程和Sub - Agent本身。该项目对垂直领域Agent开发有参考价值,如工具化范式在「规则密集+语料稀缺」领域收益大,工具数量膨胀后工具管理成独立工程问题,缺乏自动验证领域不确定性量化是务实次优方案,「知识即接口」在规则密度高场景更可靠,Tianfu Agent证明该范式在足够结构化的垂直领域可能同样成立。

http://www.gsyq.cn/news/1384849.html

相关文章:

  • taotoken如何帮助ubuntu开发者应对大模型api的频繁更新与版本迭代
  • 新手避坑指南|1000-3500元6款小提琴实测,拒绝智商税,入门不踩雷
  • Codex iOS连接失败解决方法 iOS 可以完成 SSH 认证,但始终无法建立稳定 Codex 会话
  • 如何将 iPhone 数据备份到电脑/云端/外部驱动器
  • 抖音内容高效采集终极指南:3大核心策略解锁完整下载方案
  • 哔哩漫游X:解锁B站全功能体验的终极指南
  • 为什么鸿蒙 App 最终都会走向状态驱动?
  • SPT-AKI存档编辑器:你的离线塔科夫游戏管家
  • OpenCore Legacy Patcher完整解决方案:4步让旧Mac焕然一新
  • AI翻唱革命:3个简单步骤用AICoverGen打造专属AI歌手
  • FeHelper终极指南:30+前端开发工具一站式解决方案,如何快速提升你的开发效率
  • 用知识图谱构建测试用例间的关联关系,回归测试范围精准优化
  • 什么是if嵌套
  • 基于VAE潜在空间与机器学习分类器的恶意软件检测实战
  • 8051串口通信波特率设置与调试实战
  • AI搜索时代谁能帮你抢占第一推荐位?2026年成都效果好的GEO优化机构实力榜发布 - GEO优化
  • 内蒙古金旅假日旅行社有限公司官方联系方式公告(2026最新) - 资讯快报
  • 智慧养老系统用药管理:精准管控老人用药
  • LUR框架:解决机器学习模型遗忘中的梯度冲突难题
  • 终极指南:用D2DX让《暗黑破坏神2》在现代电脑上焕然一新
  • 未Root安卓抓包实战:VMOS Pro+小黄鸟HTTPS解密全链路
  • 2026电商GEO优化服务商评测:不再卷关键词排名,谁能用“全意图”重构AI获客? - GEO优化
  • 2026年GEO优化选型:五步决策法锁定专业服务商 - 资讯快报
  • 筑牢筛选根基 泰克生物专业打造高质量酵母 cDNA 文库构建服务
  • 大模型应用的“越狱测试”:如何验证AI产品的安全边界?
  • 大语言模型在序列推荐系统中的创新应用
  • Vivace:专为聚合物设计的机器学习力场,突破GAS困境
  • 手机HTTPS抓包失败原因与系统级证书信任配置指南
  • 3大实战秘籍:揭秘raylib如何让游戏开发像搭积木一样简单
  • Veo 2提示词性能瓶颈诊断:基于1726组AB测试的token敏感度热力图与阈值红线预警