当前位置：首页 > news >正文

第021章：ComfyUI文生音频Qwen3-TTS模型数字人音色设计（二）

news 2026/7/5 6:09:58

在上一章我把Qwen3-TTS音色设计工作流所需要的插件和模型都已经准备好了，这一章我们将从零开始去搭建一个音色设计的工作流。

打开你的ComfyUI，一键启动，新建一个空白的工作流：

1、在空白处双击鼠标左键，搜索“tts model”，选择下图框起来的插件,先加载模型。

2、选择里面的“1.7B-VoiceDesign”,剩下的保持默认。

3、搜索“tts 声音”选择下面的插件。

4、参数保持默认就行

以下几个需要注意：

1）两个输入框，上面的框是我们输入文字转音频的文字内容的，下面的框是我们用来输入控制音色的指令的。

2）自动卸载模型：【是】生成完成后立刻从显存释放 Qwen3-TTS 模型，节省显存，适合显存小、偶尔用一次 TTS 的场景；【否】模型常驻显存，连续多次生成不用重复加载，速度更快，适合批量配音。

3）max_mew_tokens(最大令牌数)可以理解为字节，1个汉字大概2个tokens,你如果输入的文字太多的话就把这个改大大点（不过音色设计的话要求是3-15s我们一般生成一个10s左右的音频就OK了。就算是后面声音克隆，我也不建议弄得太长，一是生成太长的语音稳定性容易出问题，再一个万一需要修改，等待的时间也太长）。

4）seed(种子)我个人习惯fixed(固定)，你也可以不不改，这是我的个人习惯。

5）语速1.0：标准正常语速；小于1.0：慢速，0.7 适合旁白、温柔配音；大于1.0快速，1.2~1.5 适合短视频快节奏解说。

6）批量模式：【True】单词输入一段文本，生成一条音频；【False】支持批量文本数组输入，一次生成多条音频。

---------下面的平时保持默认就行，几乎不用变-----------

7）Top_P（0.8）：数置越高【0.9-0.95】朗读停顿、语气变化更多、更自然，但容易出现奇怪断句。数字越低【0.6-0.7】朗读更规整稳定，适合旁白、新闻配音。

8）Top_K（50）限制单词可选词汇数量，默认不用改，数字越小发音越规整，数字越大语气越丰富。

9）Temperature（0.8）创意随机度，数值越低【0.4-0.6】，语气越死板、断句统一，几乎无情绪波动；数值越高【0.8-1.0】语气轻重变化越明显，真人感更强；

10）Repetition_penalty（1.1）重复惩罚系数，解决长文本重复读同一个词、卡顿复读，默认值1.1一般不需要变动【1.05-1.15】是最优区间，1代表不做限制，长句容易重复读词。

11）启用高级采样配置【关闭】，普通配音用不到，只有一些高级专业调音时会需要。

5、接下来，我们继续鼠标左键双击，工作流的空白处，搜索”Save audio”。

参数默认V0就OK，意思类似智能无损音质，比下面的128K音质好，同音质比320K文件小。

6、至此音色设计所需要的组件都添加完成了，把他们练级起来就OK了。