当前位置：首页 > news >正文

主流模型术数题「翻车」，Tianfu Agent准确率达50%逼近人类Top20选手水平

news 2026/5/25 23:10:47

没有信息泄漏的专业术数题库面前，主流模型「翻车」，Tianfu Agent表现亮眼

没有信息泄漏的专业术数题库面前，Claude、GPT等主流模型集体「翻车」。但一个叫Tianfu Agent的系统，却一举将准确率提升至50%，逼近本届术数大赛人类Top20选手的53.5%平均水平。

评测背景与主流模型测试结果

把当前最先进的通用大模型，放在中国传统术数专业选择题（四选一）面前，评测对通用模型已做「让步」，所有基线模型的Prompt中都提供预计算的盘面数据，直接考察推理能力。DestinyLinker研究团队基于术数大赛（HKJFMA主办，3069名选手参与）的官方题库的评测集基准Mingli - Bench，测试当下主流大模型，技术报告和测试结果在x上获百万关注。结果意外，这些模型在几乎无信息泄漏的最新比赛选择题上，准确率在23%到40%之间徘徊，而四选一选择题随机猜测线是25%。

Tianfu Agent研发与成果

为验证模型能力能否支撑专业术数推理，该团队研发了Tianfu Agent系统，实现针对中国传统术数领域harness工程系统，包括200多个原子工具、3大流派规则函数库、多Sub - Agent协作及全链路置信度量化机制，一举达到50%的截尾准确率，逼近本届赛事人类Top20选手平均水平。

Harness之路：编码智能体经验不足

试案例用了马斯克命盘，测试中的1971/12/30非其真实生日，因他出生于南半球，需对生辰进行节气转换。Claude Code、Cursor等工具在复杂工程任务中表现良好，是因其被放进领域专用工具环境。Tianfu Agent将同样逻辑搬进中国传统术数领域，采用多Sub - Agent协作的渐进式发现策略，但仅依靠Coding Agent成功经验不够，术数领域涉及大量数据逻辑运算，规则选择需经验，且缺乏「单元测试」辅助验证手段，易积累偏差，其他垂直领域如医疗、法律等可能面临类似困境。

200多个工具管理：四级可见性控制

通用Agent用十几个工具即可，200 +工具带来的工程问题是模型选不对。研究团队按「LLM可理解性」和「可穷举性」将工具分成四级，机制核心是动态控制工具可见范围，避免选项过载导致选择退化，此思路对其他垂直领域Agent开发有参考价值。

繁杂规则使用：封装成可调用函数

通用Agent常把规则写进System Prompt或Few - shot让模型「记住并遵循」，但术数领域规则繁杂、适用条件耦合、流派矛盾，靠记忆遵循会导致选择性忽略和推理路径不可控。Tianfu Agent把复杂规则封装成带元数据的可调用函数，人类专家预先标注相关信息，函数输入盘面状态返回结论和置信度，只在满足验证时注入上下文，将LLM从「记规则的考生」变成「调规则的工程师」。

无单元测试：三层不确定性量化

编码Agent有「测试」验证手段，术数领域等绝大多数专业领域缺乏「单元测试」。Tianfu Agent引入不确定性量化，在工具输出层、Sub - Agent层、多流派合参层给出置信度评估，虽不能替代「自动验证」，但在缺乏验证手段领域，能为上层决策提供量化参考。

harness设计哲学与对垂直领域Agent落地启示

这套harness设计哲学是在Tianfu Agent里，工具不仅是计算函数，还包括规则、子推理流程和Sub - Agent本身。该项目对垂直领域Agent开发有参考价值，如工具化范式在「规则密集+语料稀缺」领域收益大，工具数量膨胀后工具管理成独立工程问题，缺乏自动验证领域不确定性量化是务实次优方案，「知识即接口」在规则密度高场景更可靠，Tianfu Agent证明该范式在足够结构化的垂直领域可能同样成立。

查看全文

http://www.gsyq.cn/news/1384849.html