当前位置: 首页 > news >正文

Step 3.7 Flash开源模型实测 – 多模态 Agent 大脑更省Token

大家好,这里是K姐。

一个帮助你把AI真正用起来的女子。

很难想象,企业使用 AI 的成本已经远远超过了雇佣员工的成本。

上周,Axios 报道里提到,一位 AI 顾问透露,他的某家企业客户因为没有给员工的 Claude 许可证设置使用上限,在短短一个月内花掉了惊人的 5 亿美元。

米哈游员工在测试 AI Agent 时,因为搭了几十个 Agent 没及时关,一晚上烧光了约 200 万人民币的 Token。

多个 Agent 协同的生产链路,多轮调用、工具高频触发带来的 Token 消耗和延迟开销,正在成为企业难以承受的负担。

所以这也是为什么最近各家都在推 Flash 模型。

Flash 模型现在已经不只是旗舰模型更快、更便宜的平替。而是能放进 Agent 工作流里,让每一步都更快、更稳、更省。

最近,阶跃星辰推出了新一代高效率 Flash 开源模型Step 3.7 Flash。官方介绍里,Step 3.7 Flash 是 198B 参数稀疏 MoE 多模态模型,每个 token 激活约 11B 参数,支持 256K 上下文,最高吞吐可达 400 tokens/s,也支持 low、medium、high 三档推理强度。

我们更关心它在真实复杂场景下的 Agent 链路效率。今天,咱们抛开评分和排行榜,用真实的场景来实测一波

实测 Coding Agent 的 One-shot 表现

本次实测用到的是 Claude Code + StepFun 的 Coding Plan。

  • Case 1 多模态感知与 UI 执行力

我随手画了一张草图,让 Step 3.7 Flash 做一个电商运营复盘看板。

参考草稿图做一个电商运营复盘看板。

Step 3.7 Flash 将视觉理解内置进 Agent 工作流,模型能准确识别草图中的手写文字和空间布局。将草图转化为符合现代审美、带自适应响应式的 HTML/CSS / JS 看板应用。

生成的网页还原度超级高,和我手绘的草稿几乎一模一样,页面板块、文字都识别的非常准确,我画的小箭头、小图标都被还原出来了。

不过,渠道销售额板块最上方应该有一个“全部”选项,Step 3.7 Flash 遗漏了。

我们继续让它根据草图优化页面:

继续优化页面,渠道销售额板块,与原图有出入。按照原图排版在上方添加【全部】选项。

Step 3.7 Flash 的多模态能力不只是停在看懂图片,可以直接定位到需要修改的地方,准确修改。

  • Case 2 视觉搜索与工具增强推理

今天比亚迪公布了 5 月份的产销快报,我们让 Step 3.7 Flash 识别试试:

读取图片中的关键信息,并联网生成分析报告。

这个任务不是单纯 OCR 识字,而是看 Step 3.7 Flash 能不能做到先提取关键数据,再联网验证背景,最后输出一份可读的分析报告。

Step 3.7 Flash 识别的信息非常精准。

我们一起来看看生成的报告,Step 3.7 Flash 抓到了几个重点,内容都很准确:

比亚迪 2026 年 5 月新能源汽车销量为 383453 辆,新能源汽车产量为 380549 辆。

1月到 5 月累计同比下降 20.32%,5月产量增长 8.78%,销量增长 0.26%,有明显回暖,是重要的拐点,产销两端都在恢复性增长。

5 月出口占新能源汽车总销量的 41.9%,出口成为比亚迪最重要的增长引擎之一。

  • Case 3 视觉理解

我上传了一张调音台照片,问它:

麦克风怎么调。

Step 3.7 Flash 识别出这是 NFM M系列 专业调音台,还了解了调麦克风要看通道、GAIN、FADER、MUTE、AUX、主输出这些关键位置。

对普通小白来说,Step 3.7 Flash 给出的流程基本能指导人排查“为什么麦克风没声”、“声音太小”、“有啸叫”等等问题。

尤其是提醒先看 MUTE、再看增益、再推通道推子、再检查主输出,视觉理解非常厉害,逻辑也对。

  • Case 4 图片转互动地图

请将文件夹中的图片直接作为输入,不提供额外背景说明。请一次性完成整个工作流程。

目标: 创建一个完整的、可演示的单页 HTML 城市导览页面,文件名 ucsd-tour.html。页面要求能够:

1.识别提供的图片中的地标。

2.通过网页搜索验证识别结果。

3.将图片复制到当前工作目录并按合适名称保存。

4.构建一个美观、交互式的地图式城市导览指南。

重要输入规则:

  • 仅使用直接提供的图片作为输入。

  • 不扫描文件夹或目录寻找额外图片。

  • 不导入当前目录中无关的图片。

  • 将提供的图片视为完整的图片集。

网页整体看是那么回事,有首页、地图、地点介绍、导览路线图,排版也不错。

Step 3.7 Flash 能准确的识别出 7 个地点,说明视觉理解和网页搜索能力是过关的。

不过仔细一看,地标名字和图片并没有对应上,模型在多文件管理、路径映射、资源命名方面可能不够严谨。

再看看 Step 3.7 Flash 生成的地图,只是初步画了个方位,并没有地图,地标的方位也和实际的地理方位有偏差。

整体来说,Step 3.7 Flash 只完成了核心的识别任务,细节处理还有提升空间。

一些分享

Step 3.7 Flash 在实际交互中给我最直观的感受就是响应速度快。

虽然在面对多文件映射、精确的空间逻辑等复杂任务时,偶尔有一些细节还有提升空间,但 Step 3.7 Flash 的高响应速度和多模态感知的结合,在多轮交互中展现出了高效的纠错能力,从而以较低的延迟与成本,为复杂的 Agent 链路换取了更大的容错空间。

本次评测的实际消耗的 Token 仅占 Coding Plan 套餐周额度的 15% 左右。得益于 MoE 架构的成本优势,即便 Agent 在长工作流中面临高频的多轮迭代、检索和纠错,其算力成本依然能保持在企业完全可承受的区间内。

有了 Step 3.7 Flash 这样面向生产级 Agent 的高效率 Flash 模型,Agent 在应对真实任务时,能够以更快、更稳、更省的方式跑通整个工作流,而不再是令人望而却步的 Token 吞噬兽。

大模型应用正在走向务实。当企业不必再为高昂的账单与延迟感到焦虑时,AI 才能真正从单点展示的玩具,转化为工业级生产线上稳定运转的生产力工具。

作者:K姐

投稿邮箱:tougao@kseek.ai

http://www.gsyq.cn/news/1490314.html

相关文章:

  • CANopen SDO通信原理拆解:以STM32F4读取一个16位变量为例,看懂每一帧数据
  • SerialPlot隐藏技巧:除了看波形,还能这样玩转多通道数据流与CSV导出
  • 2026佛山连锁眼镜店权威评测:佛山专业配眼镜、佛山儿童配镜、佛山太阳镜、佛山成人配镜、佛山散光配镜、佛山眼镜店售后选择指南 - 优质品牌商家
  • 别再死记硬背了!用FFmpeg实战拆解音视频面试里的‘秒开’与‘卡顿’难题
  • 别再只盯着手册了!ADS1274硬件设计实战:从引脚配置到原理图避坑,手把手带你搞定四通道ADC
  • 从MIT Cheetah 3看四足机器人控制:为什么简化模型反而更‘抗造’?
  • 告别DQN的束手无策:用DDPG和TD3搞定机器人连续动作控制(附PyTorch实战代码)
  • 避开这些坑!ArcGIS成本路径分析从数据准备到结果可视化的保姆级指南
  • STM32做Modbus主机,如何避开从机‘装死’的坑?一个超时重发机制的完整实现指南
  • 3步重塑:释放游戏数据的无限创意
  • 推荐价格合理的简寓旅居民宿靠谱吗? - myqiye
  • 别再只盯着RJ45了!手把手教你搞定RGMII接口的PCB布局布线(含TI TDA4/高通8295芯片间直连实战避坑)
  • 基于ECharts的广西新能源汽车销量可视化分析系统的设计与实现
  • 2026年我用30天实测了Cursor和Claude Code:同一段代码质量差了47分,结果让我惊了
  • 2026年国内全氟醚密封圈权威供应商TOP4盘点:热接圈密封件/热接圈密封圈/耐高温密封件/耐高温密封圈/O型圈密封件/选择指南 - 优质品牌商家
  • Windows 10下PyInstaller打包闪退?别慌,可能是Tcl库路径在捣鬼(附详细排查步骤)
  • dsPIC33E电机控制实战:手把手教你配置6路ADC同步采样(附完整代码)
  • 2026年美国白蛾诱捕器TOP5厂商排行:天牛诱捕器、害虫诱捕器、小蠹引诱剂、引诱剂诱捕器、引诱剂诱芯、性诱剂诱芯选择指南 - 优质品牌商家
  • ROS机器人调试利器:手把手教你用rosbag录制和回放传感器数据(避坑指南)
  • 02-Hooks完全指南——05-useReducer 与复杂状态
  • 从GIS学生到项目实战:我的Cesium 1.91学习笔记与避坑全记录
  • 别再只盯着MobileNet了!手把手教你用PyTorch复现ShuffleNet V2(附完整代码与权重文件)
  • 模电课设别再头疼了!手把手教你用LM358和滑动变阻器搞定水位检测电路(附完整元器件清单)
  • 沈阳氦气应用技术要点及合规供应选型指南:沈阳工业气体、沈阳工业氮气、沈阳氧气、沈阳氧气、沈阳氩气、沈阳氮气、沈阳液氮气体选择指南 - 优质品牌商家
  • 魔百盒CM301H刷机后体验:当贝桌面+去广告,老盒子300H芯片性能释放实测
  • 别再死记硬背了!用‘打电话’和‘寄快递’的故事,5分钟搞懂电路交换和分组交换
  • JWT登录认证系统​ —— 用户注册/登录 + 接口保护
  • 星悦汇通增强缠绕结构壁管性价比如何 - myqiye
  • 别再只会用Navicat了!手把手教你用Vue2和Codemirror5.65.2搭建自己的Web版SQL编辑器
  • 技术方案初稿,可以从一次口述开始