主流模型术数题「翻车」,Tianfu Agent准确率达50%逼近人类Top20选手水平
没有信息泄漏的专业术数题库面前,主流模型「翻车」,Tianfu Agent表现亮眼
没有信息泄漏的专业术数题库面前,Claude、GPT等主流模型集体「翻车」。但一个叫Tianfu Agent的系统,却一举将准确率提升至50%,逼近本届术数大赛人类Top20选手的53.5%平均水平。
评测背景与主流模型测试结果
把当前最先进的通用大模型,放在中国传统术数专业选择题(四选一)面前,评测对通用模型已做「让步」,所有基线模型的Prompt中都提供预计算的盘面数据,直接考察推理能力。DestinyLinker研究团队基于术数大赛(HKJFMA主办,3069名选手参与)的官方题库的评测集基准Mingli - Bench,测试当下主流大模型,技术报告和测试结果在x上获百万关注。结果意外,这些模型在几乎无信息泄漏的最新比赛选择题上,准确率在23%到40%之间徘徊,而四选一选择题随机猜测线是25%。
Tianfu Agent研发与成果
为验证模型能力能否支撑专业术数推理,该团队研发了Tianfu Agent系统,实现针对中国传统术数领域harness工程系统,包括200多个原子工具、3大流派规则函数库、多Sub - Agent协作及全链路置信度量化机制,一举达到50%的截尾准确率,逼近本届赛事人类Top20选手平均水平。
Harness之路:编码智能体经验不足
试案例用了马斯克命盘,测试中的1971/12/30非其真实生日,因他出生于南半球,需对生辰进行节气转换。Claude Code、Cursor等工具在复杂工程任务中表现良好,是因其被放进领域专用工具环境。Tianfu Agent将同样逻辑搬进中国传统术数领域,采用多Sub - Agent协作的渐进式发现策略,但仅依靠Coding Agent成功经验不够,术数领域涉及大量数据逻辑运算,规则选择需经验,且缺乏「单元测试」辅助验证手段,易积累偏差,其他垂直领域如医疗、法律等可能面临类似困境。
200多个工具管理:四级可见性控制
通用Agent用十几个工具即可,200 +工具带来的工程问题是模型选不对。研究团队按「LLM可理解性」和「可穷举性」将工具分成四级,机制核心是动态控制工具可见范围,避免选项过载导致选择退化,此思路对其他垂直领域Agent开发有参考价值。
繁杂规则使用:封装成可调用函数
通用Agent常把规则写进System Prompt或Few - shot让模型「记住并遵循」,但术数领域规则繁杂、适用条件耦合、流派矛盾,靠记忆遵循会导致选择性忽略和推理路径不可控。Tianfu Agent把复杂规则封装成带元数据的可调用函数,人类专家预先标注相关信息,函数输入盘面状态返回结论和置信度,只在满足验证时注入上下文,将LLM从「记规则的考生」变成「调规则的工程师」。
无单元测试:三层不确定性量化
编码Agent有「测试」验证手段,术数领域等绝大多数专业领域缺乏「单元测试」。Tianfu Agent引入不确定性量化,在工具输出层、Sub - Agent层、多流派合参层给出置信度评估,虽不能替代「自动验证」,但在缺乏验证手段领域,能为上层决策提供量化参考。
harness设计哲学与对垂直领域Agent落地启示
这套harness设计哲学是在Tianfu Agent里,工具不仅是计算函数,还包括规则、子推理流程和Sub - Agent本身。该项目对垂直领域Agent开发有参考价值,如工具化范式在「规则密集+语料稀缺」领域收益大,工具数量膨胀后工具管理成独立工程问题,缺乏自动验证领域不确定性量化是务实次优方案,「知识即接口」在规则密度高场景更可靠,Tianfu Agent证明该范式在足够结构化的垂直领域可能同样成立。
