通义千问 Qwen3-TTS 正式发布： 97ms 超低延迟，支持语音克隆和语音设计 - V2EX

Home Sign Up Sign In

This topic created in 119 days ago, the information mentioned may be changed or developed.

通义千问团队发布了 Qwen3-TTS ，一个开源的文本转语音（ TTS ）模型系列，在语音生成质量和速度方面都有显著提升。

介绍： https://qwen3ttsai.com/ ，包含完整的产品介绍、在线体验、技术文档和使用指南。

官方推文： https://x.com/Alibaba_Qwen/status/2014326211913343303

核心亮点

97ms 超低延迟：端到端合成延迟低至 97ms ，支持流式生成，单个字符输入后即可输出首个音频包
3 秒快速语音克隆：仅需 3 秒音频即可克隆任何声音
自由语音设计：使用自然语言描述创建自定义语音，支持灵活控制音色、情感和韵律
10 种主要语言支持：中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文、意大利文
完全开源：Apache-2.0 许可证，可免费商用

技术架构

基于 Qwen3-TTS-Tokenizer-12Hz ，实现高效的声学压缩和高维语义建模
离散多码本 LM 架构，实现全信息端到端语音建模
创新的双轨混合流式生成架构，支持流式和非流式生成

模型版本

CustomVoice：9 种预设优质音色，支持自然语言指令控制
VoiceDesign：基于用户描述进行语音设计
Base：3 秒快速语音克隆，可用于微调其他模型

提供 0.6B 和 1.7B 两种参数量版本。

No Comments Yet

Qwen3-TTS 超低延迟语音克隆

About · Help · Advertise · Blog · API · FAQ · Solana · 1011 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 30ms · UTC 22:56 · PVG 06:56 · LAX 15:56 · JFK 18:56
♥ Do have faith in what you're doing.