语音合成中的呼吸声模拟：增加真实感的细微气音细节-深圳市維司達科技有限公司

语音合成中的呼吸声模拟：让机器说话“有血有肉”

在虚拟主播流畅播报新闻、AI助手温柔提醒日程的今天，我们越来越难分辨声音背后的究竟是人还是算法。这正是现代语音合成（Text-to-Speech, TTS）技术惊人的进步体现——从早期机械朗读到如今近乎以假乱真的拟人表达。

但如果你曾仔细对比真人录音与当前主流TTS输出，或许会察觉一丝微妙的“违和感”：那种说话前轻微吸气、句间自然换气、情绪波动时气息起伏的真实细节，在大多数合成语音中依然缺失。它们太“干净”了，干净得不像活生生的人类。

这种“生命感”的缺失，恰恰是高端语音应用的最后一道门槛。而突破这一瓶颈的关键，并不在于更复杂的语调建模或情感标签注入，反而藏在一个常被忽略的角落——呼吸声与细微气音的模拟。

GLM-TTS作为新一代端到端语音合成框架，正悄然改变这一局面。它没有依赖显式的呼吸标注数据，也没有引入额外控制模块，而是通过参考音频驱动、音素级干预和高保真声码器的协同机制，在隐式中还原出人类说话时最自然的气息流动。

这一切是如何实现的？

零样本语音克隆：不只是复刻音色，更是复制“呼吸节奏”

传统TTS系统通常只关注“说什么”和“怎么发音”，却忽略了“什么时候喘口气”。而GLM-TTS的核心突破之一，正是其强大的零样本语音克隆能力——仅凭3–10秒的真实录音，就能提取出目标说话人的完整发声风格，包括那些未被明说的副语言特征。

其核心在于一个高维的“音色嵌入向量”（Speaker Embedding）。这个向量不仅编码了音高、共振峰等基本声学属性，还隐含了说话者的生理行为模式：比如每句话后的停顿时长、语速变化趋势，甚至口腔开合带来的轻微气流摩擦。当模型在推理阶段使用这段嵌入引导生成时，这些细微习惯就会被一并复现。

举个例子：如果你上传的参考音频是一位播音员在安静状态下缓慢朗读的内容，其中包含清晰可辨的句间吸气声，那么生成的语音也会在类似语义位置自动插入相应的换气动作。这不是简单的复制粘贴，而是对呼吸节律的建模迁移。

但这也有前提——参考音频的质量至关重要。背景噪音可能被误判为呼吸引擎效应；过短的片段无法捕捉完整的换气周期；而过于夸张的情绪表达则可能导致呼吸模式失真。因此，推荐选择安静环境中录制的自然对话或朗读片段，尤其是带有明显思考停顿和换气声的段落，才能有效激活模型的呼吸模拟能力。

✅ 实践建议：尝试用一句“嗯……让我想想”作为参考音频，你会发现后续生成的语音也开始有了“沉思前吸气”的真实感。

音素级控制：给“啊”、“呢”加上一口气

尽管零样本学习能很好地继承整体呼吸风格，但在某些特定场景下，我们希望对某一个词、某一个语气进行精确干预。这时，就需要更直接的控制手段——音素级调控。

在标准流程中，文本经过图到音（G2P）模块自动转为音素序列。但对于中文里的语气助词如“啊”、“呢”、“吧”，它们常常伴随着轻微拖音或送气现象，标准G2P往往将其简化为单一音素，导致合成结果生硬。

GLM-TTS提供了--phoneme模式，允许用户传入预处理后的音素序列，并结合自定义 G2P 替换字典，手动指定这些词的发音形式。例如：

{"grapheme": "嗯", "phoneme": "ən h"}

这条规则告诉模型：“‘嗯’不仅要发成鼻元音 /ən/，还要紧接着加一个清喉擦音 [h]，即一次轻呼气。” 这样一来，原本干巴巴的一个音节就变成了“嗯——呼”这样更具表现力的回应。

这项功能的价值在于可控性。在批量生产配音内容时，你可以统一设定所有“思考型”语气词都附加[h]，确保风格一致性；在戏剧化表达中，甚至可以设计“急促吸气→短暂停顿→爆发式回答”的呼吸动线，模拟惊讶或紧张的情绪状态。

当然，这也要求使用者具备一定的语音学基础。错误的音素替换可能导致发音怪异，比如把[h]加在不该出现的位置，听起来像是说话时不断叹气。建议先从小范围测试开始，验证效果后再推广至长文本。

python glmtts_inference.py \ --data=example_zh \ --exp_name=_test_with_breath \ --use_cache \ --phoneme

这条命令启用了KV缓存加速推理，同时开启音素模式，使模型能够读取外部提供的精细音素序列。配合configs/G2P_replace_dict.jsonl中的自定义规则，即可实现对关键语气点的精准呼吸控制。

高采样率输出：听见那0.1秒的气流

即使模型学会了“何时呼吸”、“如何呼吸”，最终能否被听众感知，还取决于另一个关键环节——声码器的保真度。

声音的本质是空气振动。人类呼吸声的能量主要分布在2–8kHz频段，部分鼻腔气流甚至可达10kHz以上。若采用低采样率（如16kHz），这些高频成分将被严重衰减甚至丢失，导致“听不到呼吸”。

GLM-TTS支持24kHz与32kHz两种输出模式。相比之下，32kHz意味着每秒采集32,000个样本点，能更完整地保留瞬态细节。实验表明，在相同参考音频条件下，32kHz生成的语音在主观评测中“更像真人”的评分高出约18%。尤其在静默过渡区域，你能清晰听到唇齿微张时的那一丝气流滑过，仿佛说话者就在耳边低语。

参数	24kHz 模式	32kHz 模式
生成速度	快（推荐用于调试）	较慢（约增加20%-30%时间）
显存占用	~8–10 GB	~10–12 GB
音质表现	清晰可用	更加细腻自然，呼吸感更强

代价也很明显：更高的计算资源消耗、更大的存储成本、更长的生成时间。因此，在实际应用中应权衡取舍。对于需要极致真实感的场景（如电影配音、高端广告），32kHz几乎是必选项；而对于实时交互类任务（如客服机器人），24kHz已足够满足需求。

⚠️ 提示：可通过WebUI中的「高级设置」切换采样率。建议首次尝试使用24kHz快速验证效果，确认满意后再用32kHz精修关键片段。

系统协同：呼吸不是“加进去”的，而是“长出来”的

值得注意的是，呼吸声模拟并非某个独立模块的功劳，而是整个系统协同作用的结果。它的实现路径如下：

[输入文本] ↓ [文本预处理 & G2P] → [音素控制模块] ↓ [参考音频编码器] → [音色嵌入提取] ↓ [TTS模型（GLM-TTS）] ← [音色+音素联合建模] ↓ [声码器（HiFi-GAN或类似）] ↓ [高采样率波形输出（含呼吸细节）]

在这个链条中：
-参考音频编码器负责捕捉原始说话人的呼吸节奏；
-音素控制模块提供人工干预接口，定义哪些词该“喘口气”；
-TTS主干模型完成上下文感知的联合建模；
-高采样率声码器则是最后一道防线，确保这些细微信号不会在波形重建过程中丢失。

以一段“沉思后回答”的生成为例：
1. 选取一段带有明显吸气声的参考音频（如：“嗯……我觉得吧，这件事还得再想想。”）
2. 在WebUI上传该文件并填写对应文本
3. 输入目标句：“这个问题我需要一点时间考虑”
4. 开启32kHz输出与KV Cache加速
5. 启动合成

最终输出的语音将呈现出自然的吸气前奏、中间轻微换气、结尾渐弱释放的整体呼吸轮廓，完美复现了原说话者在思考状态下的生理反应。

解决什么问题？又该如何用好它？

应用痛点	GLM-TTS解决方案
合成语音“太机器”、“没有感情”	利用参考音频中的呼吸节奏传递情绪状态（如急促呼吸表示紧张）
多人对话场景中角色区分度低	不同角色使用不同呼吸模式（深沉 vs 轻快）增强辨识度
长文本朗读单调乏味	自动插入符合语义的换气点，提升节奏感
特定语气词发音生硬	通过音素控制添加`[h]`或延长尾音实现柔和过渡

为了最大化发挥这一能力，以下是几个值得采纳的最佳实践：