当前位置：首页 > news >正文

NVBench：首个双语非语言发声评测基准，让AI学会“笑”与“叹”

news 2026/6/22 2:58:39

1. 项目缘起：为什么需要一个“非语言发声”的评测基准？

如果你最近关注过AI语音合成领域，无论是Sora带动的视频生成热潮，还是各类AI配音工具的井喷，你可能会发现一个有趣的现象：我们评测一个语音合成系统的好坏，似乎总在围绕“像不像人说话”打转。从早期的MOS（平均意见分）到现在的自然度、清晰度、相似度，核心指标几乎都指向一个目标——让机器生成的声音无限逼近真人说话。

这当然没错，也是语音合成技术发展的主线。但作为一名在这个领域摸爬滚打了十多年的从业者，我越来越感觉到，我们可能无意中忽略了一个巨大的“声音宇宙”：那些不承载具体语义，却同样充满表现力、甚至更富情感张力的声音。比如，一声叹息、一阵轻笑、一段哼唱、一次惊讶的吸气，或者电影配乐中人声吟唱的部分。这些声音，我们统称为“非语言发声”。

为什么它们重要？想象一下，一个AI虚拟主播在播报新闻时，如果全程都是字正腔圆的播音腔，你会觉得它“专业”，但可能不会觉得它“亲切”。但如果它在播报一条令人惋惜的消息时，能自然地发出一声轻微的叹息；在讲述一个有趣的故事时，能配合内容发出会心的轻笑，整个体验的沉浸感和真实感会瞬间提升几个量级。再比如，在游戏、动画、有声书甚至心理疗愈应用中，这些非语言声音是塑造角色性格、渲染环境氛围、传递微妙情绪不可或缺的“香料”。

然而，现状是尴尬的。当前主流的语音合成评测基准，如Blizzard Challenge、Voice Conversion Challenge，乃至各大厂内部的标准测试集，几乎清一色聚焦于有文本脚本的朗读语音。对于非语言发声，业界缺乏一个公认的、系统的、可量化的评测标准。这就导致了一个困境：研究者想优化模型生成“笑声”的质量，却不知道用什么指标来衡量“笑得好不好”；开发者想集成这类功能，面对市面上不同的方案，也无从客观比较优劣。

这就是“NVBench”诞生的背景。作为首个公开的双语（中英文）非语言发声语音合成评测基准，它试图填补这块空白，为这个细分但至关重要的研究方向，立下一根“标尺”。我最初接触到这个项目时，第一反应是“终于有人做这件事了”。接下来，我将结合我的经验，深入拆解这个基准的设计逻辑、核心挑战以及它对我们实际工作可能带来的影响。

2. NVBench基准的核心构成与设计哲学

一个评测基准，本质上是一套“考题”加“评分标准”。NVBench的“考题”是什么？它的“评分标准”又该如何制定？这背后涉及对“非语言发声”这一复杂概念的深刻理解。

2.1 数据集的构建：捕捉声音的“无字之书”

构建任何语音数据集，数据是基石。对于非语言发声，数据收集的难度呈指数级上升。

首先，定义与分类的模糊性。“非语言发声”本身就是一个光谱，从完全无意义的语气词（如“嗯”、“啊”），到富有旋律的哼唱，再到情绪饱满的笑声、哭声，边界并不清晰。NVBench需要首先对其进行科学的、可操作的分类。根据公开资料和我的理解，它很可能涵盖了以下几个核心类别：

情感性发声：笑声（轻笑、大笑、憨笑）、哭声、叹息、惊讶（倒吸气）、厌恶（咂嘴）等。
填充性发声：犹豫时的“呃”、“嗯”，思考时的拖长音等。
韵律性发声：哼唱（有固定旋律）、无词吟唱（如“啊~”的长音，带有音高变化）。
生理性发声：咳嗽、打哈欠、清嗓子等（这类在某些场景下也有表情达意的作用）。

其次，数据获取与标注的挑战。朗读文本可以轻易地录制成千上万条平行语料（同一文本，不同人读）。但你怎么让录音者在麦克风前“自然地”笑出十种不同的笑？又如何标注一段“哼唱”的情绪是“愉悦的”还是“忧伤的”？NVBench的构建者必须设计巧妙的诱发实验（如让参与者观看搞笑视频、聆听感人故事来捕捉真实反应），并建立一套细致的声音学与感知标注体系。这包括：

声学特征标注：基频（F0）轮廓、能量包络、频谱特征、持续时间等。例如，一段“冷笑”的F0曲线可能先陡升后骤降，能量集中在中高频。
感知属性标注：通过众包或专家听评，对每段声音的情绪（喜悦、悲伤、惊讶）、强度（轻微、中等、强烈）、自然度、适宜性等进行打分。

最后，双语与多样性。作为双语基准，NVBench需要包含中文和英文语境下的非语言发声。这不仅仅是语言切换，更涉及文化差异。例如，中文语境中表示认可的“嗯”和英文中的“uh-huh”，在音高模式和时长上可能有细微差别。同时，说话人（提供声音的录音者）的年龄、性别、口音多样性也必须考虑，以确保基准的泛化能力。

2.2 评测任务与指标：如何给“感觉”打分？

有了高质量的数据集，接下来就是设计评测任务和指标。这是整个基准的“灵魂”，也是最体现设计者功力的地方。

核心评测任务很可能包括：

生成任务：给定一个非语言发声的类别标签（如“愉悦的轻笑”）和/或一段文本上下文（如“听到这个好消息后，他……”），让模型生成对应的声音。这是最直接、最具挑战性的任务。
转换任务：给定一段源语音（包含或仅为非语言发声）和一个目标属性（如“将叹息转换为轻笑”），要求模型在保持其他信息不变的情况下，转换目标属性。
可控性生成任务：测试模型对发声强度、时长、音高等维度的精细控制能力。例如，“生成一段强度为0.7、时长2秒的惊讶吸气声”。

评测指标则需要从客观和主观两个层面构建，且必须超越传统语音合成的指标：

客观指标：
- 声学特征匹配度：计算生成声音与真实样本在F0曲线、梅尔频谱等特征上的距离（如MCD，梅尔倒谱失真）。但这只能衡量“形似”，无法衡量“神似”。
- 分类器得分：训练一个分类器（如基于HuBERT等语音表示模型），判断生成的声音属于哪个非语言类别，用分类准确率作为指标。这能部分反映生成声音的“可辨识性”。
- 嵌入空间相似度：在预训练语音模型（如WavLM）的嵌入空间中，计算生成声音与真实声音在高层语义表征上的余弦相似度。这比低层声学特征更能捕捉感知相似性。
主观指标（黄金标准）：无论客观指标多先进，最终评判权仍在人耳。NVBench必须设计严谨的主观评测实验。
- 自然度与真实感MOS：听众在不知道声音来源的情况下，对生成声音听起来像“真人实时发出”的程度进行1-5分打分。
- 情感匹配度MOS：给定一个目标情感（如“尴尬”），听众评判生成声音传达该情感的准确程度。
- 适宜性AB/X测试：将生成的声音放入一个具体的上下文音频片段（如一段对话的间隙），让听众判断哪个声音插入后更自然、更贴合场景。

注意：主观评测的成本极高，且容易受个体偏好影响。一个稳健的基准需要精心设计评测流程（如随机化顺序、加入注意力检查题）、招募足够多样化的评测人员，并计算评测者间信度（如科恩卡帕系数）以确保结果可靠。

3. 对现有技术路线的挑战与启示

NVBench的出现，就像一面镜子，照出了当前主流语音合成技术在处理非语言发声时的“短木板”。也为我们未来的技术选型和研发方向提供了清晰的启示。

3.1 主流TTS架构的局限性

目前占统治地位的自回归式TTS模型（如VITS、YourTTS）和非自回归式TTS模型（如FastSpeech系列），其核心范式是“文本→声学特征→波形”。它们的强项在于建模文本和语音之间的对齐关系。但对于没有对应文本的非语言发声，这个管道从源头就遇到了问题。

输入表征的缺失：我们无法用“ha ha ha”来精确描述一段笑声的起伏和气息。需要设计全新的、更丰富的输入条件，例如：
- 符号化表示：开发一套描述性的符号系统（如“[LAUGH: type=chuckle, intensity=high, duration=2s]”）。
- 声学提示：提供一段种子音频或关键的声学特征轮廓作为条件。
- 多模态上下文：结合触发该发声的视觉信息（如笑脸图片）或前文语音的语义/情感特征。
建模能力的不足：非语言发声往往具有更强的随机性、更复杂的时序动态和更丰富的副语言信息（如气息声）。传统的音素时长预测、音高预测模块可能不再适用，需要更强大的序列建模能力来捕捉这些无文本约束的、高度变化的声音模式。

3.2 潜在的技术演进方向

NVBench的评测任务，直接指向了几个有潜力的技术方向：

提示学习与条件化生成：借鉴扩散模型和大型语言模型的思路，将非语言发声的生成视为一个“条件生成”问题。模型接收一个高度抽象的“提示”（可能是文本描述、类别标签、情感向量、参考音频的CLAP嵌入等），直接生成波形或神经声码器所需的特征。DALL-E 3之于图像，可能就是未来“AudioLM”类模型之于非语言声音的方向。
解耦表示学习：目标是学习一个解耦的语音表示空间，其中不同维度分别控制语言内容、说话人身份、情感、以及非语言发声属性。这样，我们可以通过操纵“非语言发声”维度，在保留其他信息不变的情况下，为一段中性语音注入叹息或笑声。这需要对对比学习、向量量化等表示学习技术进行创新性应用。
数据高效与零样本学习：高质量的非语言发声数据注定是稀缺的。如何利用海量的、未精细标注的日常对话语音（其中包含大量非语言发声），通过自监督、弱监督的方式让模型学会“听”和“生成”这些声音，是一个关键课题。WavLM、HuBERT等自监督语音表示模型在此领域可能大放异彩，它们从海量数据中学到的丰富表征，是理解非语言信息的宝贵先验知识。
上下文感知与生成：非语言发声极少孤立存在。一声“哼”在争吵后和撒娇时含义天差地别。未来的模型需要深度理解前后语音的语义、情感和韵律上下文，才能生成时机恰当、含义准确的非语言发声。这要求模型具备更强的对话历史和场景建模能力。

4. 实战思考：基准如何影响我们的产品与研发

对于一个一线的算法工程师或产品经理来说，NVBench不仅仅是一个学术榜单，它更是一个实用的“工具箱”和“方向标”。

4.1 在模型选型与评估中的应用

假设你的团队正在开发一款AI虚拟偶像，需要为她添加丰富的反应声音。面对几个备选的语音合成引擎或开源模型，如何决策？

过去，你可能只能靠“听感”做模糊判断。现在，你可以利用NVBench（或借鉴其思想自建内部基准）进行量化评估：

定义核心需求：你的产品最需要哪类非语言发声？（是笑声、叹气，还是哼唱？）对自然度、可控性、实时性的优先级如何？
设计内部测试集：从NVBench的分类中选取相关类别，收集或录制一批符合产品调性的测试样本（例如，虚拟偶像应该是“元气少女的笑声”，而非“大叔的憨笑”）。
执行对标测试：用统一的客观指标（如嵌入相似度）和主观评测（邀请目标用户群体进行AB测试）对各个候选模型打分。
做出数据驱动的决策：综合得分、推理速度、部署成本等因素，选择最适合的模型。你会发现，某些在朗读任务上MOS分很高的模型，在生成笑声时可能表现平平，这避免了“唯MOS论”的陷阱。

4.2 在研发流程中的集成

在模型研发阶段，NVBench可以作为一个重要的验证集和损失函数设计灵感来源。

多任务训练与损失函数：你可以在训练主TTS模型时，加入一个辅助的“非语言发声分类”任务，或者使用从NVBench数据中提取的声学特征作为额外的回归目标，让模型隐式地学习这些模式。
可控性模块开发：如果你想开发一个独立的“笑声调节滑块”，NVBench中标注了不同强度的笑声数据，就是训练强度预测或控制模块的绝佳素材。
迭代验证：每个开发迭代周期后，不仅在传统TTS测试集上跑分，也在NVBench的子集上测试，确保新改进没有损害模型生成非语言声音的能力，甚至有所提升。

4.3 需要注意的陷阱与挑战

当然，拥抱新基准的同时也要保持清醒：

过拟合风险：如果一个模型在NVBench上分数很高，但在你的具体应用场景中表现不佳，可能是模型过拟合了基准数据的特定分布。基准是标尺，不是圣旨。最终一定要在自己的业务数据上进行验证。
评测成本：完整运行一次NVBench的主观评测耗时耗力。在实际工作中，可以优先采用其客观指标进行快速迭代，定期（如每月）进行一次小规模的主观评测作为校准。
定义边界：非语言发声与背景音乐、音效的边界有时很模糊。基准的定义需要清晰，否则会在标注和评测时引入噪声。在实际产品中，也需要明确哪些声音由TTS模型生成，哪些由音效库提供，这涉及系统架构的设计。

从我个人的经验来看，NVBench这类基准的出现，标志着语音合成研究正在从一个“读稿机”向着“情感丰富的表达者”深化。它迫使我们去思考语音中那些无法被文字承载，却至关重要的部分。对于开发者而言，它提供了新的优化维度和评测工具；对于研究者而言，它开辟了一片充满挑战的新蓝海。下一次当你调试TTS模型时，或许可以问自己一个问题：除了字正腔圆，它，会“笑”了吗？

查看全文

http://www.gsyq.cn/news/1570620.html