当前位置: 首页 > news >正文

微软开源 VibeVoice:60 分钟音频一次搞定,语音 AI 的格局变了

传统 ASR 模型处理一小时音频要切成几十段,还得额外跑说话人分离。VibeVoice 一次搞定:60 分钟音频一次性输入,Who、When、What 一起输出。


这个项目解决什么问题?

语音识别存在一个老问题:短音频很好做,长音频就崩

传统的 ASR 模型只能处理 30-60 秒的音频片段,长录音得靠切片→分别识别→拼接→再做说话人分离(diarization)。流程拆成三四步,每次切断语境,错误累积。

VibeVoice ASR 的思路是:把上下文窗口拉到 60 分钟。单个模型、一次推理、输出带说话人和时间戳的结构化转录。


核心亮点

1. 60 分钟单次处理——输入长达 64K token,覆盖一小时音频,不做切割。会议、讲座、播客一次性搞定。

2. 三合一输出——Who(说话人)、When(时间戳)、What(内容),一次推理全出。不需要额外跑 diarization。

3. 自定义热词——可以把专业术语、人名、产品名注册为热词,大幅提高领域识别准确率。

4. 实时 TTS——VibeVoice Realtime 0.5B 支持流式输入,延迟低到可以做语音助手。


快速上手

ASR 推理用 Hugging Face Transformers 直接跑:

fromtransformersimportpipelineimporttorch pipe=pipeline("automatic-speech-recognition",model="microsoft/VibeVoice-ASR-HF",chunk_length_s=60,return_timestamps="word",)result=pipe("meeting_recording.wav")print(result["text"])# 自动包含说话人标注 + 时间戳

技术要点

VibeVoice 的核心技术是7.5Hz 连续语音编码器

传统做法是把语音切成离散的 token(类似文本的 BPE),但会丢失语调和韵律信息。VibeVoice 用连续向量表示语音——帧率低至 7.5 Hz,但保留了完整的音频保真度。

然后在这个连续编码上做下一 token 扩散(next-token diffusion):用 LLM 理解语义上下文,用扩散头生成高保真音频细节。这套框架同时适用于 ASR 和 TTS。


我的评价

VibeVoice 的定位很聪明——它不是又造一个语音模型,而是重新定义了声学编码的方式。7.5 Hz 连续 tokenizer + next-token diffusion 的组合,让一个架构同时搞定理解和生成。

对比竞品:

维度VibeVoiceWhisper其他开源 ASR
最长音频60 分钟30 秒30-60 秒
说话人分离内置需额外模型
热词支持
TTS + ASR 统一架构

不足:7B 参数 ASR 模型较吃显存;TTS 模块暂时只开放了 Realtime 0.5B;中英文混说的场景还有优化空间。


参考资料

[1] microsoft/VibeVoice - GitHub: https://github.com/microsoft/VibeVoice
[2] VibeVoice-ASR 技术报告: https://arxiv.org/pdf/2601.18184
[3] Hugging Face Model: https://huggingface.co/microsoft/VibeVoice-ASR-HF

http://www.gsyq.cn/news/1480866.html

相关文章:

  • Adobe Illustrator脚本神器:如何用智能工具集提升10倍设计效率
  • 从900MHz无绳电话拆解,掌握无线通信系统硬件与固件设计精髓
  • FPGA资源友好型Verilog指数计算模块(CORDIC定点实现)
  • GDA安卓逆向工具深度解析:从静态分析到动态调试的全链路安全解决方案
  • Cursor Pro破解工具:如何突破AI编程助手试用限制的终极指南
  • MATLAB调用ANSYS做机械臂轨迹跟踪闭环仿真,含MPC控制器与参数化结构建模
  • 2026 揭阳漏水维修全攻略|苏易修缮:厨卫 / 阳台 / 外墙 / 屋顶 / 地下室|靠谱防水门店 - 苏易修缮
  • AI提示词极限赛:从入门到精通的技术全景与实战指南
  • Citra 3DS模拟器:如何在PC上完美运行任天堂3DS游戏的终极指南
  • USBCopyer:3分钟配置,实现U盘文件智能同步的Windows神器
  • 【稀缺实操资料】CSDN AI企业账号多开备案模板(含加盖公章的《多账号运营声明书》范本+市场监管局咨询话术),仅限前200位技术负责人领取
  • Android多架构Speex回音消除so库编译工程(含ARM/ARM64/x86全平台支持)
  • 5分钟掌握视频字幕提取:本地化解决方案让你告别手动转录烦恼
  • 抖音下载器终极指南:三步实现批量下载与智能管理
  • 华为奋斗者协议:技术职场中的激励契约与工程师职业选择分析
  • Rust 错误处理从 if-else 到 thiserror:生产级错误链与错误转换
  • LangChain 会话记忆核心:记忆管理策略
  • 别再只用ArcMap了!揭秘ArcGIS Desktop三兄弟:ArcGlobe、ArcScene和ArcCatalog的正确打开方式
  • 英雄联盟玩家的终极效率工具:LeagueAkari完整使用指南
  • 新疆书法教育培训教师正规报名渠道推荐:官方授权机构与避坑指南 - 教育推荐官【官方】
  • USB枚举全流程解析:从控制传输到设备识别的实战指南
  • 别再硬编码了!Flowable流程运行时动态探查节点全攻略
  • 上海迪士尼33VIP到底怎么订?内行直言:认准正规渠道服务商 - 热点观察
  • MCP2515+MCP2551 CAN总线硬件设计与软件调试全攻略
  • 如何快速实现本地千万级图片库秒级搜索:完全离线的图片管理终极指南
  • 终极Discord消息清理指南:如何用Undiscord快速批量删除数千条聊天记录
  • 工程师的技术写作之道:从术语准确到逻辑清晰,提升技术沟通效率
  • Kubernetes 调度器深度原理:从默认调度到自定义调度器的全链路解析
  • 如何重新掌控你的大疆无人机:DankDroneDownloader终极固件下载解决方案
  • PCIe配置空间Capability链表解析与调试实战