当前位置：首页 > news >正文

大模型OCR技术突破：腾讯混元OCR开源，1B参数实现多任务SOTA性能

news 2026/6/11 8:53:19

2025年11月25日，腾讯正式宣布开源混元OCR（HunyuanOCR）大模型，这一突破性成果标志着光学字符识别技术进入轻量化、多模态融合的新纪元。该模型以仅10亿（1B）参数规模，在文档解析、视觉问答和跨语言翻译三大核心任务上同时达到业界领先水平，为企业级应用与个人开发者提供了高性能、低成本的OCR解决方案。

【免费下载链接】POINTS-Reader腾讯混元POINTS-Reader：端到端文档转换视觉语言模型，结构精简无需后处理。支持中英双语提取，OmniDocBench英文0.133、中文0.212高分。采用600M NaViT实现高吞吐量，已支持SGLang部署，vLLM支持即将推出。EMNLP 2025主会收录，开源两阶段数据增强策略，轻松实现文档图片转文本项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-Reader

如上图所示，腾讯混元OCR模型依托混元原生多模态架构，通过1B轻量化参数实现了多项OCR应用榜单的SOTA成绩，并于2025年11月25日正式开源。这一技术突破充分体现了大模型在OCR领域的创新应用，为开发者和企业提供了高效、低成本的文档处理解决方案，推动OCR技术向更广泛的应用场景拓展。

端到端架构革新：打破传统OCR技术瓶颈

传统OCR系统普遍采用"检测-识别-后处理"的级联式架构，各模块间的误差累积严重影响最终性能。混元OCR创新性地采用全端到端训练推理范式，通过规模化高质量标注数据（包含8000万+文档图像、300万+场景文本样本）与在线强化学习机制，使模型具备端到端的文本理解能力。这种架构设计不仅规避了级联方案的系统性误差，还实现了从图像输入到结构化输出的"一站式"处理，大幅提升了复杂场景下的鲁棒性。

在模型优化方面，研发团队采用动态分辨率输入（支持256-4096像素自适应调整）与混合注意力机制，在保证精度的同时将模型文件压缩至2GB以内。这一轻量化设计使得普通消费级GPU即可完成本地部署，配合vLLM推理框架可实现每秒30+张图像的处理速度，较传统Transformer部署方案性能提升4倍以上。

多任务性能突破：1B参数挑战200B级模型

混元OCR在国际权威评测中展现出惊人的性能潜力。在OCR Bench通用数据集上，该模型以860分的成绩刷新3B参数以下模型的最高纪录，超越同类模型平均水平15%；在复杂文档解析专项评测OmniDocBench中，其94.1分的成绩领先第二名3.2分，尤其在公式识别（LaTeX准确率98.7%）和表格重建（HTML结构还原度96.2%）任务上表现突出。

最令人瞩目的是其跨语言翻译能力——仅使用1B参数，混元OCR在多语言拍照翻译任务中取得与Qwen3-VL-235B（2350亿参数）相当的翻译质量。该模型支持14种语言的双向互译，其中中文-英文、中文-日文等核心语言对的BLEU值达到45.3，接近专业人工翻译水平。在街道视图文本（如模糊路牌、艺术字体）识别场景中，其识别准确率达89.4%，较行业平均水平提升22%，展现出强大的复杂环境适应能力。

全场景应用支持：从文档处理到实时翻译

混元OCR通过灵活的提示词系统支持六大核心应用场景：

通用文本识别：支持印刷体、手写体、艺术字体等20+文本类型，识别覆盖率达99.1%
结构化解析：可将文档中的表格转换为HTML格式，数学公式转为LaTeX表达式，流程图生成Mermaid代码
视频字幕提取：支持1080P视频实时字幕识别，帧率稳定在25FPS以上
多语言翻译：端到端完成图像文本提取与翻译，支持中英日韩等14种语言
关键信息抽取：可按JSON格式精准提取身份证、发票等票据中的指定字段
文档内容重组：自动忽略页眉页脚，按阅读顺序将文档内容重组为Markdown格式

官方提供的提示词模板极大降低了二次开发门槛。例如解析学术论文插图时，仅需输入"解析图中的图表，对于流程图使用Mermaid格式表示，其他图表使用Markdown格式表示"，模型即可输出可直接编辑的结构化内容。

快速部署指南：从安装到API调用

为方便开发者使用，混元OCR提供完整的部署工具链。推荐通过vLLM框架进行部署，执行以下命令即可完成环境配置：

pip install vllm --extra-index-url https://wheels.vllm.ai/nightly

启动服务端：

vllm serve tencent/HunyuanOCR \ --no-enable-prefix-caching \ --mm-processor-cache-gb 0

模型同时兼容OpenAI API协议，开发者可使用熟悉的接口进行调用：

from openai import OpenAI client = OpenAI( api_key="EMPTY", base_url="http://localhost:8000/v1", timeout=3600 ) messages = [ { "role": "user", "content": [ { "type": "image_url", "image_url": {"url": "文档图像URL"} }, { "type": "text", "text": "提取文档图片中正文的所有信息用markdown格式表示，表格用html格式表达" } ] } ] response = client.chat.completions.create( model="tencent/HunyuanOCR", messages=messages, temperature=0.0, )

开源生态建设：推动OCR技术普及发展

腾讯混元OCR的开源不仅提供了先进的技术方案，更构建了可持续发展的生态系统。项目在GitCode平台同步开放训练数据处理工具（支持自动生成多语言对照样本）、模型微调脚本（提供LoRA/QLoRA两种轻量化微调方案）和行业适配模板（已覆盖金融、医疗、教育等8大领域）。据官方透露，后续将推出多模态扩展接口，支持PDF全文解析、3D场景文本识别等高级功能。

这一开源举措有望加速OCR技术的普及发展——中小企业无需投入巨额研发成本，即可获得企业级的文档处理能力；开发者可基于此模型快速构建垂直领域应用，如古籍数字化、无障碍阅读辅助、跨境电商商品信息提取等。随着大模型技术与OCR的深度融合，我们正迎来"万物皆可识别"的智能文档时代。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.gsyq.cn/news/90191.html