当前位置：首页 > news >正文

MiMo2.5Pro《江湖百晓生》测试过程和结果！

news 2026/5/26 15:25:17

MiMo 的 16 亿 Tokens 快到期了紧急加测了一波。然后……彻底拉了虎头蛇尾虚有其表先给你们看张图吧就这个网页消耗了 16 亿中的 4%大概是 6400 万同样的题目Opus4.7 和 Gemini3.5 真的完全是吊打它下面是 Opus4.7 做的效果下面是 Gemini3.5 做的效果结果展示完了我们来看一下细节。这是 AI 实战开发测试《江湖百晓生》的第二篇我们的主题是开发一个以金庸古龙为主题的武侠百科要包含主要人物、兵器、武功等等内容。下面我会把开发工具、开发过程给大家展现一下深入体验一下 MiMo 在实战中的表现。开发工具我现在基本上不用 CCSwitch 了我都是用自己的 JCode Claude Code配置好之后只要打开 JCode直接双击图标启动 CC 就可以不需要直接去终端输入 Claude也不需要 cd 到指定路径也不需要直接配置环境变量、修改配置文件。只要通过软件的添加功能添加 API key 和写上正确的 Base URL 即可我其实内置了小米的 base URL但是由于小米的默认接入点和 Token Plan 的接入点不一样。所以如果要用 Token Plan 的套餐就需要按截图中调整。如果是默认充多少用多少的 API就不需要修改了。配置完成之后以后就不用管了。直接双击图标启动选择一个文件夹就能开干了开发过程为 MiMo 创建独立的测试文件夹。然后通过 JCode 快速启动 CC。这个时候就可以在 CC 调用 MiMo 的 Token Plan 了。然后只要把我们的需求告诉它就可以了。这个需求和测试 Gemini3.5 Flash 的是一模一样的。核心需求我想要做一个江湖百晓生的网站。主要是收集金庸古龙的武侠小说首先也要找到所有的小说然后是整理其中的人物、兵器、场景、武功招式。你可以凭记忆完成也可以去网上收集所有资料需要存档然后制作武侠风格的网页用极具特色的方式组织展现这些内容这是一个庞大的任务请做好计划并且打算运行很长时间。需要保证数据的准确不要偷懒然后把这个需求一粘贴一个回车就开始干活了小米MiMo刚开始这个架势还是很不错的。首先说了句“这是一个庞大的任务我先了解情况然后制定详细计划”。然后就是开始让我选技术栈了。首推是 HTML/CSS/JS 路线因为我测 Gemini 的时候选了 React所以这里也选这个这里给的四种方案还是比较全面的基本上就是这几种了。然后进入下一步第二步是展现风格看起来非常不错哦1.古风巻轴/竹简模拟古代卷轴展开效果翻页阅读 2.江湖地图门派分布以地图形式展现门派、人物关系 3.武侠卡片/图鉴类似游戏图鉴卡片式收集展示 4.综合门户/百科全书类似维基百科的结构化知识库这候选项超预期啊都考虑到这么多风格了我都不知道选哪个好呢。那我就选默认的“古风卷轴”吧继续进入下一步这一步是数据深度。这里提供了 3 个选项。我希望数据多一点我本来就是来消耗 Tokens 的。所以我就选了“3.尽量全面”继续下一步这一步是执行方式可以选择先看计划或者直接开始或者分阶段开始。我自然是先看计划全部选完之后就进入计划环节了。我看了一下具体计划内容看这计划做得挺好的挺详细的既然它都做得这么详细了我就不提供任何意见了。直接让它按计划完成到目前为止我感觉他都很厉害阿啊这个ask和Plan环节非常专业啊!然后...一顿操作猛如虎结果就生成了这样一个网页布局完全是乱的内外边距间距位置全乱。看一个模型的前端能力和思考能力。第一个就是要看布局和构思。如果布局清晰基本上就是业务逻辑整清楚了然后前端技术也到位了。这个前端肯定已经拉了我没啥好说了。这种布局一旦出现你要去让它调好就会很难。因为它不理解这种空间感。下面我们来看看数据我的要求是越全面越好然后看了一下它的数据。总共收录了21个人物、23部小说、10件兵器、13门功夫、10个门派。这……一部小说里也不止这么多东西啊。所以很显然它在抓数据的时候偷懒了。“AI 偷懒程度”其实也是一个重要的技术指标。Claude 和 OpenAI 发布新模型都会强调模型能独立运行几十个小时。其实他们要强调的不是时间长而是能自主连续干活的时间长。因为复杂的问题就是需要消耗时间的。现在他们都推出了/goal命令可以设定一个可验证的目标让模型自己长期循环跑到完成为止。MiMo给我的感觉是做这个事情计划看起来很好但是执行的时候比较拉跨偷懒也比较明显。Gemini3.5 Flash 在完成这个任务的时候抓数据也偷懒了。但是奈何人家前端优秀啊秀到不行基本业务逻辑也整理的清清楚楚。MiMo 刚上那一会儿我用了好几个例子来测试当时并没有测出大问题好像表现也挺不错。极有可能那些例子已经被优化训练了。最近测了两个例子表现非常拉跨。一个是《掌门日记》一个是《江湖百晓生》。这两个例子其实是为它量身定制的第一个是为了测试它和 DeepSeek 的差距结果页面出错直接被吊打第二个也就是今天这个是为了消耗它的 16 亿 Tokens 而设计的。最后 Tokens 是消耗了不少但是结果非常不理想。在我二次要求下终于补全了大量数据。总共消耗了 16 亿中的 4%但是页面问题还是不好解决。我本来想让它改一下的但是不知道为什么提示我模型不存在了前面几轮对话都正常的。这个需求提出来之后突然就说模型不存在了。我开了一个全新的对话一样的配置又是可以的我看同一个对话的 Recap 也正常的可能是又遇到啥 BUG 了算了不改了说实话第一个版本如果出来就没法看我就不想改了改的意义也不大。所以我的感觉是小米这个大模型“新秀”底蕴还是差了些只是做了一些表面功夫。有些特定领域优化到中档水平但是非常不全面很容易遇到瓶颈所以这个模型不适合深入使用只能做一些通用的基础的。同样的问题我测试了很多模型大家可以自行对比感受相关文章《Gemini3.5Flash 的江湖百晓生》《Claude Opus4.7的江湖百晓生》接下来好还有一个测试项目测完之后我就准备把MiMo挂起来了目前对我而言无用

查看全文

http://www.gsyq.cn/news/1392879.html