当前位置：首页 > news >正文

Holo1.5：开启智能交互新纪元的计算机使用代理基础模型

news 2026/6/11 10:41:04

Holo1.5：开启智能交互新纪元的计算机使用代理基础模型

【免费下载链接】Holo1.5-7B项目地址: https://ai.gitcode.com/hf_mirrors/Hcompany/Holo1.5-7B

模型概述

计算机使用（CU）代理是一类能够代表用户与真实应用程序（包括网页、桌面和移动应用）进行交互的人工智能系统。它们具备界面导航、元素操作和内容问答等能力，为用户打造强大的自动化与生产力工具。随着数字化任务日益复杂，CU代理的重要性愈发凸显，它们让人类能够安全高效地将复杂数字任务委托给AI处理。

Holo1.5系列模型为构建此类代理提供了业界领先的基础能力。该系列在跨网页、计算机和移动环境的用户界面（UI）定位和基于UI的问答（QA）任务中表现卓越，在多项权威基准测试中取得优异成绩，包括Screenspot-V2、Screenspot-Pro、GroundUI-Web、Showdown以及新发布的WebClick数据集。

Holo1.5系列提供三种不同规模的模型以满足多样化部署需求：

3B版本：继承自Qwen模型的许可协议
7B版本：完全开源，采用Apache 2.0许可
72B版本：仅限研究使用（非商业用途）。商业用途请联系我们获取授权

这些模型旨在为下一代CU代理（如Surfer-H）提供可靠、准确且高效的技术基础，使其能够以前所未有的能力操控真实应用程序。

开发机构：H公司
模型类型：面向计算机使用代理的视觉语言模型（VLM）
微调基础模型：Qwen/Qwen2.5-VL-7B-Instruct
技术博客：https://www.hcompany.ai/blog/holo-1-5
许可协议：Apache 2.0许可协议

训练策略

Holo1.5模型采用高质量专有数据进行UI理解和动作预测训练，遵循多阶段训练流程。训练数据集经过精心筛选，融合了开源数据集、大规模合成数据和人工标注样本，形成全面的训练素材。

训练过程分为两大阶段：首先进行大规模监督微调，随后实施在线强化学习（GRPO）。最终模型支持高达3840×2160像素的高分辨率输入，能够精准高效地解析复杂屏幕界面并预测操作动作。

性能表现

UI定位任务的突破性进展

UI定位是指代理在用户界面中精确识别元素（按钮、文本框、图片等）位置的能力。对于CU代理而言，这项能力至关重要——无论是点击按钮、填写表单还是读取信息，都需要准确定位界面元素。

我们在多个标准UI定位基准上对Holo1.5模型进行了全面评估，包括Screenspot-V2、Screenspot-Pro、GroundUI-Web、Showdown以及新推出的WebClick。

评估结果显示：

7B和72B版本模型性能超越所有现有模型，平均定位精度提升4.5%
3B版本虽规模较小，但性能可与其他7B级模型媲美，展现出优异的资源效率

这些成果在开源UI定位领域建立了新的帕累托最优边界，实现了模型规模与定位精度之间的最佳平衡，为CU代理技术树立了新标准。

该图展示了不同模型在UI定位精度与模型大小之间的权衡关系。Holo1.5系列模型在图中形成明显的优势区域，表明在相同计算资源下能够提供更高的定位精度，为开发者选择适合部署需求的模型提供了直观参考。

此图表对比了Holo1.5系列与其他主流模型在各项UI定位基准测试中的表现。通过柱状图可以清晰看到Holo1.5-72B在多数任务中处于领先位置，7B版本也显著优于同级别竞品，验证了该系列模型在UI定位任务上的全面优势。

模型	WebClick	Showdown	ScreenSpot-v2	ScreenSpot-Pro	Ground-UI-1K	OSWorld-G	平均值
Holo1.5-3B	81.45	67.50	91.66	51.49	83.20	61.57	72.81
Holo1.5-7B	90.24	72.17	93.31	57.94	84.00	66.27	77.32
Holo1.5-72B	92.43	76.84	94.41	63.25	84.50	71.80	80.54
Qwen2.5-VL-3B	71.20	50.30	80.00	29.30	76.40	34.31	56.92
Qwen2.5-VL-7B	76.51	52.00	85.60	29.00	80.70	40.59	60.73
Qwen2.5-VL-72B	88.29	41.00	93.30	55.60	85.40	61.96	70.93
UI-TARS-1.5-7B	86.10	58.00	94.00	39.00	84.20	61.40	70.45
Holo1-7B	84.04	64.27	89.85	26.06	78.50	47.25	65.00
Holo1-3B	79.35	59.96	88.91	23.66	74.75	42.16	61.47
UI-Venus-7B	84.44	67.32	94.10	50.80	82.30	58.80	72.96
UI-Venus-72B	77.00	75.58	95.30	61.90	75.50	70.40	75.95
Sonnet 4	93.00	72.00	93.00	19.10	84.00	59.60	70.12

表1：主流模型的定位基准测试分数。粗体表示当前最佳性能，斜体数据来自先前报道，常规字体数据为内部复现结果

屏幕内容理解与问答能力的卓越表现

对于GUI代理而言，精确的定位能力固然重要，但理解界面结构和功能以实现有效交互同样关键。为评估这些综合能力，我们在多个GUI问答基准上测试了Holo1.5模型，包括ScreenQA Short、ScreenQA Complex、VisualWebBench和WebSRC。这些基准测试全面衡量模型对UI的理解和推理能力，确保其能在各种应用场景中准确执行任务。

该图呈现了模型在UI问答性能与参数量之间的关系。Holo1.5系列模型形成的曲线明显位于其他模型上方，表明其在相同模型规模下能够提供更优的问答性能，尤其72B版本在保持高性能的同时实现了效率突破。

此图表展示了不同模型在各项UI问答任务中的得分情况。Holo1.5-72B在所有测试中均表现最佳，7B版本也显著领先于同级别模型，证明了该系列在理解复杂界面内容方面的强大能力，这对构建实用的计算机使用代理至关重要。

模型	VisualWebBench	WebSRC	ScreenQAShort	ScreenQAComplex	平均值
Holo1.5-3B	78.50	94.80	87.90	81.40	85.65
Holo1.5-7B	82.60	95.90	91.00	83.20	88.17
Holo1.5-72B	83.80	97.20	91.90	87.10	90.00
Qwen2.5-VL-3B	58.00	93.00	86.00	76.00	78.25
Qwen2.5-VL-7B	69.00	95.00	87.00	81.10	83.02
Qwen2.5-VL-72B	76.30	97.00	87.90	83.20	86.10
UI-TARS-1.5-7B	79.70	92.90	88.70	79.20	85.12
Holo1-3B	54.10	93.90	78.30	53.50	69.95
Holo1-7B	38.10	95.30	83.30	65.10	70.45
UI-Venus-7B	60.90	96.60	86.30	82.30	81.52
UI-Venus-72B	74.10	96.70	88.60	83.30	85.67
Claude-Sonnet-4	58.90	96.00	87.00	75.70	79.40

表2：主流模型的屏幕内容问答基准测试分数。粗体表示当前最佳性能

Holo1.5模型在GUI问答任务中表现出令人印象深刻的能力，较现有最佳模型提升3.9%。这一成果证明其在网页和桌面环境中具备强大的视觉感知能力，这对于计算机使用代理完成复杂任务至关重要。

演示体验

观看演示视频，了解如何在计算机使用场景中与模型进行交互：

您也可以在Hugging Face 空间体验实时演示。

未来展望

我们的目标是构建经济高效且可靠的计算机使用代理。Holo1.5的发布是实现这一愿景的重要一步，有助于促进该技术的信任度和广泛采用。

这一里程碑仅仅是开始——在未来几周，我们将推出更多基于Holo模型的新工具和代理应用。

敬请期待——我们才刚刚起步！

引用格式

@misc{hai2025holo15modelfamily, title={Holo1.5 - Open Foundation Models for Computer Use Agents}, author={H Company}, year={2025}, url={https://huggingface.co/collections/Hcompany/holo15-68c1a5736e8583a309d23d9b}, }

【免费下载链接】Holo1.5-7B项目地址: https://ai.gitcode.com/hf_mirrors/Hcompany/Holo1.5-7B

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.gsyq.cn/news/90046.html