Qwen3-TTS 长文本生成的语速 Bug
实测Qwen3-TTS 模型在处理较长文本时存在一个已知问题:生成到后面,语速会不受控制地越来越快,即使把语速要求写在指令里也效果不好。
这个问题的根本原因在于模型的架构设计。Qwen3-TTS 基于自回归语言模型生成语音 token,当输入文本过长时,模型在解码过程中累积的注意力分布会逐渐偏离,导致生成节奏失控。具体来说:
模型每生成 4 个 token 对应约 320 毫秒的音频
长文本意味着需要生成大量连续的 token 序列
随着生成步数增加,模型对韵律和节奏的控制能力逐渐衰减
✅ 解决方案:分段合成 + 音频拼接
既然模型本身无法直接处理长文本,就需要通过工程手段来解决。核心思路很简单:把长文本切成短段分别合成,再把音频拼起来。