当前位置：首页 > news >正文

Qwen ASR+TTS 本地部署使用

news 2026/6/26 20:47:47

参考文档：

1 安装

1.1 创建conda环境

1.2 安装架构依赖

1.2.1 transform架构

1.2.2 vLLM架构

1.3 安装加速器

1.4 安装大模型

1.4.1 安装ASR

1.4.2 安装TTS

1.4.3 下载结果

2 基础demo

2.1 ASR Demo

2.2 TTS Demo

3 windows安装torch-cuda环境

3.1 查看当前显卡安装的cuda版本

3.1.1 命令行方式

3.1.2 界面方式

3.2 卸载之前torch

3.3 安装指定cuda版本的torch

参考文档：

https://github.com/QwenLM/Qwen3-TTS

https://github.com/QwenLM/Qwen3-ASR/tree/main

Qwen3-TTS全面开源：支持超低延迟流式合成的多语言语音大模型-阿里云开发者社区

1 安装

1.1 创建conda环境

conda create -n qwen3-asr python=3.12 -y conda activate qwen3-asr

1.2 安装架构依赖

支持transform架构和vLLM架构

1.2.1 transform架构

asr:

pip install -U qwen-asr

tts:

pip install -U qwen-tts

1.2.2 vLLM架构

asr:

pip install -U qwen-asr[vllm]

tts:

pip install -U qwen-tts

1.3 安装加速器

flash-attn 在mac电脑上好像装不上，就没安装

pip install -U flash-attn --no-build-isolation

限制并行数量安装，适用于：多cpu或内存低<96G的本地设备

MAX_JOBS=4 pip install -U flash-attn --no-build-isolation

1.4 安装大模型

安装摩卡下载器

pip install -U modelscope

1.4.1 安装ASR

modelscope download --model Qwen/Qwen3-ASR-0.6B --local_dir ./Qwen3-ASR-0.6B

1.4.2 安装TTS

千问的TTS依赖SOX，下载解压sox后并配置环境变量。

安装SOX：https://sourceforge.net/projects/sox/postdownload

modelscope download --model Qwen/Qwen3-TTS-12Hz-1.7B-Base --local_dir ./Qwen3-TTS-12Hz-1.7B-Base

TTS包含三种

voicedesign：使用文本描述语音音色信息

customvoice：预设的9种音色

base：基座，可以克隆用户音色

1.4.3 下载结果

2 基础demo

2.1 ASR Demo

mac电脑，不支持cuda，因此使用cpu运行

import torch from qwen_asr import Qwen3ASRModel model = Qwen3ASRModel.from_pretrained( "./Qwen3-ASR-0.6B", dtype=torch.bfloat16, device_map="cpu", # attn_implementation="flash_attention_2", max_inference_batch_size=32, max_new_tokens=256, # forced_aligner="./Qwen3-ASR-0.6B", # forced_aligner_kwargs=dict( # dtype=torch.bfloat16, # device_map="cpu", # # attn_implementation="flash_attention_2", # ), ) results = model.transcribe( audio=[ "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_zh.wav", "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav", ], language=["Chinese", "English"], # can also be set to None for automatic language detection # return_time_stamps=True, ) for r in results: print(r.language, r.text) # print(r.language, r.text, r.time_stamps[0])

2.2 TTS Demo

tts的内存占用率很高，处理时间更长

import torch import soundfile as sf from qwen_tts import Qwen3TTSModel ref_audio = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-TTS-Repo/clone.wav" ref_text = "Okay. Yeah. I resent you. I love you. I respect you. But you know what? You blew it! And thanks to you." model = Qwen3TTSModel.from_pretrained( "./Qwen3-TTS-12Hz-0.6B-Base", device_map="cpu", dtype=torch.bfloat16, # attn_implementation="flash_attention_2", ) wavs, sr = model.generate_voice_clone( text="I am solving the equation: x = [-b ± √(b²-4ac)] / 2a? Nobody can — it's a disaster (◍•͈⌔•͈◍), very sad!", language="English", ref_audio=ref_audio, ref_text=ref_text, ) sf.write("output_voice_clone.wav", wavs[0], sr)

3 windows安装torch-cuda环境

cuda必须是N卡才可以

3.1 查看当前显卡安装的cuda版本

3.1.1 命令行方式

nvidia-smi

3.1.2 界面方式

3.2 卸载之前torch

pip uninstall torch torchvision torchaudio -y

3.3 安装指定cuda版本的torch

命令行最后面的版本号，要和3.1查看的系统cuda版本相同，我的cuda版本为12.9，因此使用cu129

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu129

查看全文

http://www.gsyq.cn/news/1595536.html

页式虚存原理与模拟实践：从地址翻译到页面置换算法详解

Web自动化测试元素定位：从find_element原理到实战避坑指南

B站视频下载神器：免费下载大会员4K高清和充电专属视频的终极指南

ChartArena：跨语言、场景与格式的图表解析基准测试

5个技巧让你的Proxmox VE管理效率翻倍：PVE Tools终极指南

3PEAK思瑞浦 TPA192A2Q-S6TR-S SOT23-6 电流信号检测放大器

魔兽争霸3性能优化终极指南：如何让经典游戏在现代电脑上流畅运行

三步解锁WeMod专业版：Wand-Enhancer终极免费指南

GPT、MoE、Mamba：下一代大模型架构之争

ARM Compiler 6 下载部署与项目集成实战指南

六自由度地震模拟平台：赋能工程抗震试验的高精度核心装备

YOLO骨干网络改进- 第13篇：ResNeXt分组卷积提升特征表达

sguard_limit：解决腾讯游戏卡顿的终极方案，3分钟实现性能翻倍

img与script标签onload函数可能错过的解决办法

客流统计系统如何构建数据驱动运营体系？（AI视觉 + IoT完整技术架构解析）

膜结构球场的材料有哪些种类?

测试复盘方法论：5Why根因分析在缺陷复盘中的应用

2元一杯卷穿底价！浙江夜市上演硬核“摊位商战”，烟火气里藏市井竞争百态

基于模糊控制的PID设计（simulink仿真）

2026最新网盘不限速下载技巧：满速直链解析榨干带宽指南

IP文创产业规模发展，授权管控链条需要向精细化迈进

第八章多媒体技术基础（完整版）

5分钟搞定：Adobe-GenP 3.0激活Adobe全系列软件终极指南

2026脑机接口技术全景解析：从医疗突破到民用落地，未来产业迎来爆发前夜

从零搭建 ReAct 智能体：打造具备思考与行动能力的自动化客服机器人

Instagram评论数据采集：从底层逻辑解析到营销策略优化

语音操控超分辨率超声成像：多模态大语言模型驱动的AI医学影像新范式

Loop Engineering的理性审视：从Prompt Engineering到Loop Engineering的演进逻辑与利弊分析

RIS近场波束聚焦技术原理与实践

参考文档：

1 安装

1.1 创建conda环境

1.2 安装架构依赖

1.2.1 transform架构

1.2.2 vLLM架构

1.3 安装加速器

1.4 安装大模型

1.4.1 安装ASR

1.4.2 安装TTS

1.4.3 下载结果

2 基础demo

2.1 ASR Demo

2.2 TTS Demo

3 windows安装torch-cuda环境

3.1 查看当前显卡安装的cuda版本

3.1.1 命令行方式

3.1.2 界面方式

3.2 卸载之前torch

3.3 安装指定cuda版本的torch

相关文章：