当前位置: 首页 > news >正文

Holo1.5:开启智能交互新纪元的计算机使用代理基础模型

Holo1.5:开启智能交互新纪元的计算机使用代理基础模型

【免费下载链接】Holo1.5-7B项目地址: https://ai.gitcode.com/hf_mirrors/Hcompany/Holo1.5-7B

模型概述

计算机使用(CU)代理是一类能够代表用户与真实应用程序(包括网页、桌面和移动应用)进行交互的人工智能系统。它们具备界面导航、元素操作和内容问答等能力,为用户打造强大的自动化与生产力工具。随着数字化任务日益复杂,CU代理的重要性愈发凸显,它们让人类能够安全高效地将复杂数字任务委托给AI处理。

Holo1.5系列模型为构建此类代理提供了业界领先的基础能力。该系列在跨网页、计算机和移动环境的用户界面(UI)定位基于UI的问答(QA)任务中表现卓越,在多项权威基准测试中取得优异成绩,包括Screenspot-V2、Screenspot-Pro、GroundUI-Web、Showdown以及新发布的WebClick数据集。

Holo1.5系列提供三种不同规模的模型以满足多样化部署需求:

  • 3B版本:继承自Qwen模型的许可协议
  • 7B版本:完全开源,采用Apache 2.0许可
  • 72B版本:仅限研究使用(非商业用途)。商业用途请联系我们获取授权

这些模型旨在为下一代CU代理(如Surfer-H)提供可靠、准确且高效的技术基础,使其能够以前所未有的能力操控真实应用程序。

  • 开发机构H公司
  • 模型类型:面向计算机使用代理的视觉语言模型(VLM)
  • 微调基础模型:Qwen/Qwen2.5-VL-7B-Instruct
  • 技术博客:https://www.hcompany.ai/blog/holo-1-5
  • 许可协议:Apache 2.0许可协议

训练策略

Holo1.5模型采用高质量专有数据进行UI理解和动作预测训练,遵循多阶段训练流程。训练数据集经过精心筛选,融合了开源数据集、大规模合成数据和人工标注样本,形成全面的训练素材。

训练过程分为两大阶段:首先进行大规模监督微调,随后实施在线强化学习(GRPO)。最终模型支持高达3840×2160像素的高分辨率输入,能够精准高效地解析复杂屏幕界面并预测操作动作。

性能表现

UI定位任务的突破性进展

UI定位是指代理在用户界面中精确识别元素(按钮、文本框、图片等)位置的能力。对于CU代理而言,这项能力至关重要——无论是点击按钮、填写表单还是读取信息,都需要准确定位界面元素。

我们在多个标准UI定位基准上对Holo1.5模型进行了全面评估,包括Screenspot-V2、Screenspot-Pro、GroundUI-Web、Showdown以及新推出的WebClick。

评估结果显示:

  • 7B和72B版本模型性能超越所有现有模型,平均定位精度提升4.5%
  • 3B版本虽规模较小,但性能可与其他7B级模型媲美,展现出优异的资源效率

这些成果在开源UI定位领域建立了新的帕累托最优边界,实现了模型规模与定位精度之间的最佳平衡,为CU代理技术树立了新标准。

该图展示了不同模型在UI定位精度与模型大小之间的权衡关系。Holo1.5系列模型在图中形成明显的优势区域,表明在相同计算资源下能够提供更高的定位精度,为开发者选择适合部署需求的模型提供了直观参考。

此图表对比了Holo1.5系列与其他主流模型在各项UI定位基准测试中的表现。通过柱状图可以清晰看到Holo1.5-72B在多数任务中处于领先位置,7B版本也显著优于同级别竞品,验证了该系列模型在UI定位任务上的全面优势。

模型WebClickShowdownScreenSpot-v2ScreenSpot-ProGround-UI-1KOSWorld-G平均值
Holo1.5-3B81.4567.5091.6651.4983.2061.5772.81
Holo1.5-7B90.2472.1793.3157.9484.0066.2777.32
Holo1.5-72B92.4376.8494.4163.2584.5071.8080.54
Qwen2.5-VL-3B71.2050.3080.0029.3076.4034.3156.92
Qwen2.5-VL-7B76.5152.0085.6029.0080.7040.5960.73
Qwen2.5-VL-72B88.2941.0093.3055.6085.4061.9670.93
UI-TARS-1.5-7B86.1058.0094.0039.0084.2061.4070.45
Holo1-7B84.0464.2789.8526.0678.5047.2565.00
Holo1-3B79.3559.9688.9123.6674.7542.1661.47
UI-Venus-7B84.4467.3294.1050.8082.3058.8072.96
UI-Venus-72B77.0075.5895.3061.9075.5070.4075.95
Sonnet 493.0072.0093.0019.1084.0059.6070.12

表1:主流模型的定位基准测试分数。粗体表示当前最佳性能,斜体数据来自先前报道,常规字体数据为内部复现结果

屏幕内容理解与问答能力的卓越表现

对于GUI代理而言,精确的定位能力固然重要,但理解界面结构和功能以实现有效交互同样关键。为评估这些综合能力,我们在多个GUI问答基准上测试了Holo1.5模型,包括ScreenQA Short、ScreenQA Complex、VisualWebBench和WebSRC。这些基准测试全面衡量模型对UI的理解和推理能力,确保其能在各种应用场景中准确执行任务。

该图呈现了模型在UI问答性能与参数量之间的关系。Holo1.5系列模型形成的曲线明显位于其他模型上方,表明其在相同模型规模下能够提供更优的问答性能,尤其72B版本在保持高性能的同时实现了效率突破。

此图表展示了不同模型在各项UI问答任务中的得分情况。Holo1.5-72B在所有测试中均表现最佳,7B版本也显著领先于同级别模型,证明了该系列在理解复杂界面内容方面的强大能力,这对构建实用的计算机使用代理至关重要。

模型VisualWebBenchWebSRCScreenQAShortScreenQAComplex平均值
Holo1.5-3B78.5094.8087.9081.4085.65
Holo1.5-7B82.6095.9091.0083.2088.17
Holo1.5-72B83.8097.2091.9087.1090.00
Qwen2.5-VL-3B58.0093.0086.0076.0078.25
Qwen2.5-VL-7B69.0095.0087.0081.1083.02
Qwen2.5-VL-72B76.3097.0087.9083.2086.10
UI-TARS-1.5-7B79.7092.9088.7079.2085.12
Holo1-3B54.1093.9078.3053.5069.95
Holo1-7B38.1095.3083.3065.1070.45
UI-Venus-7B60.9096.6086.3082.3081.52
UI-Venus-72B74.1096.7088.6083.3085.67
Claude-Sonnet-458.9096.0087.0075.7079.40

表2:主流模型的屏幕内容问答基准测试分数。粗体表示当前最佳性能

Holo1.5模型在GUI问答任务中表现出令人印象深刻的能力,较现有最佳模型提升3.9%。这一成果证明其在网页和桌面环境中具备强大的视觉感知能力,这对于计算机使用代理完成复杂任务至关重要。

演示体验

观看演示视频,了解如何在计算机使用场景中与模型进行交互:

您也可以在Hugging Face 空间体验实时演示。

未来展望

我们的目标是构建经济高效且可靠的计算机使用代理。Holo1.5的发布是实现这一愿景的重要一步,有助于促进该技术的信任度和广泛采用。

这一里程碑仅仅是开始——在未来几周,我们将推出更多基于Holo模型的新工具和代理应用。

敬请期待——我们才刚刚起步!

引用格式

@misc{hai2025holo15modelfamily, title={Holo1.5 - Open Foundation Models for Computer Use Agents}, author={H Company}, year={2025}, url={https://huggingface.co/collections/Hcompany/holo15-68c1a5736e8583a309d23d9b}, }

【免费下载链接】Holo1.5-7B项目地址: https://ai.gitcode.com/hf_mirrors/Hcompany/Holo1.5-7B

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.gsyq.cn/news/90046.html

相关文章:

  • FLUX.1 Kontext Dev:开源图像编辑领域的革命性突破
  • 文本驱动视频编辑革命:Lucy Edit AI重新定义动态视觉创作边界
  • 7100万参数改写行业格局:T-one引领俄语电话语音识别技术变革
  • 本地AI革命:Locally AI重塑移动设备隐私计算新范式
  • 沁言学术深度体验:一款重新定义科研写作的智能伙伴
  • IBM推出Granite 4.0开源语言模型:以混合架构解决企业AI部署成本难题
  • 251212哇居然有人因为打球打起来了
  • 2025年AI推理里程碑:Inclusion AI开源万亿参数模型Ring-1T,数学推理性能跃升14%
  • 【附操作指南】从 Oceanbase 增量数据同步到 TiDB
  • 3、深入探究内核模块:构建、运行与优化
  • 7、高级字符设备驱动操作指南
  • 8、Linux内核中的时间处理、延迟与异步工作调度
  • 腾讯Hunyuan-Large模型优化:LoRA微调技术提升提示重写效率
  • 35、《自动化 FTP 脚本:从基础到安全优化》
  • 27、设备驱动接口与系统初始化程序详解
  • 28、Linux系统初始化程序:System V init与systemd详解
  • 前端主题切换实战:用 Scss !default 与 Less 覆盖轻松搞定多皮肤
  • 小白银行测试初步了解(十一)‘会计’
  • 48、从 Unix 向 Windows 发送弹出消息脚本详解
  • Ming-flash-omni Preview:全模态智能新纪元,稀疏混合专家架构引领AI多模态革命
  • 如何快速优化Windows右键菜单:告别卡顿提升操作效率
  • KAT-Dev-32B与KAT-Coder震撼发布:借助规模化智能体强化学习,引领代码智能新突破
  • Llama-Factory是否支持模型审计?合规性检查工具包规划中
  • 深入理解Java线程池:从核心参数到实战避坑指南
  • Windows右键菜单优化:5个简单步骤让系统运行如飞!
  • 英雄联盟智能助手:重新定义你的游戏体验
  • 【图像处理】粒子群算法PSO优化匹配追踪图像稀疏分解【含Matlab源码 14687期】
  • 【图像加密解密】密钥图像加密解密【含GUI Matlab源码 14688期】
  • Qwen3大语言模型震撼发布:36万亿 tokens 训练打造多语言AI新纪元
  • 万字长文解析:WanVideo生态模型全景与应用指南——从基础架构到前沿工具链