350041264812

通义千问 Qwen3-TTS 正式发布: 97ms 超低延迟,支持语音克隆和语音设计

  •  
  •   350041264812 · Jan 23 · 1104 views
    This topic created in 119 days ago, the information mentioned may be changed or developed.

    通义千问团队发布了 Qwen3-TTS ,一个开源的文本转语音( TTS )模型系列,在语音生成质量和速度方面都有显著提升。

    介绍: https://qwen3ttsai.com/ ,包含完整的产品介绍、在线体验、技术文档和使用指南。

    官方推文: https://x.com/Alibaba_Qwen/status/2014326211913343303

    核心亮点

    • 97ms 超低延迟:端到端合成延迟低至 97ms ,支持流式生成,单个字符输入后即可输出首个音频包

    • 3 秒快速语音克隆:仅需 3 秒音频即可克隆任何声音

    • 自由语音设计:使用自然语言描述创建自定义语音,支持灵活控制音色、情感和韵律

    • 10 种主要语言支持:中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文、意大利文

    • 完全开源:Apache-2.0 许可证,可免费商用

    技术架构

    • 基于 Qwen3-TTS-Tokenizer-12Hz ,实现高效的声学压缩和高维语义建模

    • 离散多码本 LM 架构,实现全信息端到端语音建模

    • 创新的双轨混合流式生成架构,支持流式和非流式生成

    模型版本

    • CustomVoice:9 种预设优质音色,支持自然语言指令控制

    • VoiceDesign:基于用户描述进行语音设计

    • Base:3 秒快速语音克隆,可用于微调其他模型

    提供 0.6B 和 1.7B 两种参数量版本。

    No Comments Yet
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1011 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 22:56 · PVG 06:56 · LAX 15:56 · JFK 18:56
    ♥ Do have faith in what you're doing.