第021章:ComfyUI文生音频Qwen3-TTS模型数字人音色设计(二)
在上一章我把Qwen3-TTS音色设计工作流所需要的插件和模型都已经准备好了,这一章我们将从零开始去搭建一个音色设计的工作流。
打开你的ComfyUI,一键启动,新建一个空白的工作流:
1、在空白处 双击鼠标左键,搜索“tts model”,选择下图框起来的插件,先加载模型。
2、选择里面的“1.7B-VoiceDesign”,剩下的保持默认。
3、搜索“tts 声音”选择下面的插件。
4、参数保持默认就行
以下几个需要注意:
1)两个输入框,上面的框是我们输入文字转音频的文字内容的,下面的框是我们用来输入控制音色的指令的。
2)自动卸载模型:【是】生成完成后立刻从显存释放 Qwen3-TTS 模型,节省显存,适合显存小、偶尔用一次 TTS 的场景;【否】模型常驻显存,连续多次生成不用重复加载,速度更快,适合批量配音。
3)max_mew_tokens(最大令牌数)可以理解为字节,1个汉字大概2个tokens,你如果输入的文字太多的话就把这个改大大点(不过音色设计的话要求是3-15s我们一般生成一个10s左右的音频就OK了。就算是后面声音克隆,我也不建议弄得太长,一是生成太长的语音稳定性容易出问题,再一个万一需要修改,等待的时间也太长)。
4)seed(种子)我个人习惯fixed(固定),你也可以不不改,这是我的个人习惯。
5)语速1.0:标准正常语速;小于1.0:慢速,0.7 适合旁白、温柔配音;大于1.0快速,1.2~1.5 适合短视频快节奏解说。
6)批量模式:【True】单词输入一段文本,生成一条音频;【False】支持批量文本数组输入,一次生成多条音频。
---------下面的平时保持默认就行,几乎不用变-----------
7)Top_P(0.8):数置越高【0.9-0.95】朗读停顿、语气变化更多、更自然,但容易出现奇怪断句。数字越低【0.6-0.7】朗读更规整稳定,适合旁白、新闻配音。
8)Top_K(50)限制单词可选词汇数量,默认不用改,数字越小发音越规整,数字越大语气越丰富。
9)Temperature(0.8)创意随机度,数值越低【0.4-0.6】,语气越死板、断句统一,几乎无情绪波动;数值越高【0.8-1.0】语气轻重变化越明显,真人感更强;
10)Repetition_penalty(1.1)重复惩罚系数,解决长文本重复读同一个词、卡顿复读,默认值1.1一般不需要变动【1.05-1.15】是最优区间,1代表不做限制,长句容易重复读词。
11)启用高级采样配置【关闭】,普通配音用不到,只有一些高级专业调音时会需要。
5、接下来,我们继续鼠标左键双击,工作流的空白处,搜索”Save audio”。
参数默认V0就OK,意思类似智能无损音质,比下面的128K音质好,同音质比320K文件小。
6、至此音色设计所需要的组件都添加完成了,把他们练级起来就OK了。
简单吧,音色设计就是这么的简单,可以自己玩一玩。
7、还有最后一个问题,就是音色控制的提示词怎么写?大家可以从图片中看到我就写了个“成熟的御姐嗓音、声音充满诱惑”。我i们再看看Qwen3_TTS的官方的示例是怎么写的,如下图:
我写的这个和人家这个一比,那瞬间高下立判,那类似这样的提示词应该如何写呢?
我给大家分享一个提示词的SKill,(如下图)这个大家不用去记,等这篇文章发表后我会和工作流文件一起分享到群里。
用法和前面Z-Image里面的人物生成的SKill一样丢给DeepSeek或豆包都行,让AI帮我们写。
这里有个小技巧大家了解一下,其实输入音色设计的提示词时,英文的准确性更高,翻译成中文只是方便我们自己修改,大家平时再使用的时候尽量都用英文。
------------------------------
至此我们的音色设计的工作流就完成了,大家可以自己随便的试试,玩一玩。
今天文章发表以后,我会在群里分享两个文件:
1、西安老张AIGC音色SKill;
2、音色设计与克隆的工作流:【010西安老张AIGC(Qwen3-TTS-音色设计与克隆)】;在这个工作流我把音色克隆的工作流也一块搭好了,这两个工作流都比较简单,就放在一起了。
