当前位置: 首页 > news >正文

第021章:ComfyUI文生音频Qwen3-TTS模型数字人音色设计(二)

在上一章我把Qwen3-TTS音色设计工作流所需要的插件和模型都已经准备好了,这一章我们将从零开始去搭建一个音色设计的工作流。

打开你的ComfyUI,一键启动,新建一个空白的工作流:

1、在空白处 双击鼠标左键,搜索“tts model”,选择下图框起来的插件,先加载模型。

2、选择里面的“1.7B-VoiceDesign”,剩下的保持默认。

3、搜索“tts 声音”选择下面的插件。

4、参数保持默认就行

以下几个需要注意:

1)两个输入框,上面的框是我们输入文字转音频的文字内容的,下面的框是我们用来输入控制音色的指令的。

2)自动卸载模型:【是】生成完成后立刻从显存释放 Qwen3-TTS 模型,节省显存,适合显存小、偶尔用一次 TTS 的场景;【否】模型常驻显存,连续多次生成不用重复加载,速度更快,适合批量配音。

3)max_mew_tokens(最大令牌数)可以理解为字节,1个汉字大概2个tokens,你如果输入的文字太多的话就把这个改大大点(不过音色设计的话要求是3-15s我们一般生成一个10s左右的音频就OK了。就算是后面声音克隆,我也不建议弄得太长,一是生成太长的语音稳定性容易出问题,再一个万一需要修改,等待的时间也太长)。

4)seed(种子)我个人习惯fixed(固定),你也可以不不改,这是我的个人习惯。

5)语速1.0:标准正常语速;小于1.0:慢速,0.7 适合旁白、温柔配音;大于1.0快速,1.2~1.5 适合短视频快节奏解说。

6)批量模式:【True】单词输入一段文本,生成一条音频;【False】支持批量文本数组输入,一次生成多条音频。

---------下面的平时保持默认就行,几乎不用变-----------

7)Top_P(0.8):数置越高【0.9-0.95】朗读停顿、语气变化更多、更自然,但容易出现奇怪断句。数字越低【0.6-0.7】朗读更规整稳定,适合旁白、新闻配音。

8)Top_K(50)限制单词可选词汇数量,默认不用改,数字越小发音越规整,数字越大语气越丰富。

9)Temperature(0.8)创意随机度,数值越低【0.4-0.6】,语气越死板、断句统一,几乎无情绪波动;数值越高【0.8-1.0】语气轻重变化越明显,真人感更强;

10)Repetition_penalty(1.1)重复惩罚系数,解决长文本重复读同一个词、卡顿复读,默认值1.1一般不需要变动【1.05-1.15】是最优区间,1代表不做限制,长句容易重复读词。

11)启用高级采样配置【关闭】,普通配音用不到,只有一些高级专业调音时会需要。

5、接下来,我们继续鼠标左键双击,工作流的空白处,搜索”Save audio”。

参数默认V0就OK,意思类似智能无损音质,比下面的128K音质好,同音质比320K文件小。

6、至此音色设计所需要的组件都添加完成了,把他们练级起来就OK了。

简单吧,音色设计就是这么的简单,可以自己玩一玩。

7、还有最后一个问题,就是音色控制的提示词怎么写?大家可以从图片中看到我就写了个“成熟的御姐嗓音、声音充满诱惑”。我i们再看看Qwen3_TTS的官方的示例是怎么写的,如下图:

我写的这个和人家这个一比,那瞬间高下立判,那类似这样的提示词应该如何写呢?

我给大家分享一个提示词的SKill,(如下图)这个大家不用去记,等这篇文章发表后我会和工作流文件一起分享到群里。

用法和前面Z-Image里面的人物生成的SKill一样丢给DeepSeek或豆包都行,让AI帮我们写。

这里有个小技巧大家了解一下,其实输入音色设计的提示词时,英文的准确性更高,翻译成中文只是方便我们自己修改,大家平时再使用的时候尽量都用英文。

------------------------------

至此我们的音色设计的工作流就完成了,大家可以自己随便的试试,玩一玩。

今天文章发表以后,我会在群里分享两个文件:

1、西安老张AIGC音色SKill;

2、音色设计与克隆的工作流:【010西安老张AIGC(Qwen3-TTS-音色设计与克隆)】;在这个工作流我把音色克隆的工作流也一块搭好了,这两个工作流都比较简单,就放在一起了。

http://www.gsyq.cn/news/1638401.html

相关文章:

  • 钢质、断桥铝防火窗价差成因,原材料与工艺差异详解
  • 微信好友关系检测终极指南:三步找出单向好友的完整教程
  • AI Agent 从入门到封神:24 讲打造你的超级智能体~系列文章08:多模态Agent的构建与应用
  • WindowsCleaner:你的Windows系统清理专家,告别C盘爆红的烦恼
  • 2026最新4款学生党平替AI编程工具vibe coding权威实测合集
  • LangChain AI Agent 架构实战:从链到图的五大核心概念与落地路径
  • 提“质”利器!鸿栢电极帽修磨检测AI自迭代+1秒检测,11种缺陷一“眼”看穿
  • 如何快速搭建高效开源教务系统:5分钟部署专业级学校管理平台
  • Windows和Office智能激活终极指南:KMS_VL_ALL_AIO完全解决方案
  • 2026大数据专业填报志愿学数据分析的价值
  • Claude 3 API实战指南:从核心能力解析到企业级应用集成
  • 5步掌握Diablo Edit2:暗黑破坏神2角色编辑终极实战指南
  • EdgeRemover:Windows系统上彻底卸载Microsoft Edge的完整解决方案
  • 7-Zip AES-256加密实战:从原理到自动化,打造文件安全防线
  • 从零搭建AI大模型,这些坑你踩过几个?
  • 9大网盘直链下载终极指南:LinkSwift让你的下载速度提升10倍
  • ColabFold:让每个人都能轻松预测蛋白质结构的终极指南
  • BOTW存档编辑器终极指南:如何轻松修改塞尔达传说旷野之息游戏存档
  • Python pdb调试器原理与高阶实战:从命令行到生产环境
  • 接口测试工具选型:Postman与自研平台的深度博弈与实践指南
  • 电机控制进阶——PID速度环参数整定实战与调优
  • PCIe ACS机制分析
  • 052、HAT 模型详解:混合注意力 Transformer 在超分中的创新与代码实现
  • 抖音批量下载器架构深度解析与实战指南
  • 国内东南大学学生安装OpenClaw(小龙虾)在 Windows WSL2 环境下的完整安装与配置教程
  • AntiDupl.NET:免费开源图片去重工具终极指南,3步释放硬盘空间
  • NumPy linalg 模块 7 大核心函数实战:从解方程到SVD分解
  • wiliwili:一键解锁游戏机B站追番新体验,Switch/PSVita跨平台全能客户端
  • wiliwili:跨平台B站客户端的架构解析与实用指南
  • 花都节能环保门窗有哪些特点