梅尔频谱图(Mel-spectrogram)本质上就是一种最主流、最重要的声学特征。
我们可以这样理解它们的关系:“声学特征”是一个广义的类别概念,而“梅尔频谱图”是这个类别下目前应用最广泛的具体形式。
为了让更清晰地理解这两个概念及其联系,我们将从定义、区别和演变三个方面拆解。
1. 什么是声学特征?
声学特征是对语音信号进行数学处理后提取出的一组数据,旨在用更精简、更有效的方式代表声音的本质,方便计算机模型进行处理。
原始的语音波形数据量太大且包含很多冗余信息(如背景噪声、说话人特有的音色等),直接输入模型效率很低。因此,我们需要提取“特征”。
常见的声学特征包括:
- 时域特征:如短时能量、过零率(判断是清音还是浊音)。
- 频域特征:如基频(F0)、频谱包络。
- 倒谱域特征:最著名的就是MFCC(梅尔频率倒谱系数)。
- 时频域特征:即梅尔频谱图。
2. 什么是梅尔频谱图?
梅尔频谱图是一种特殊的频谱图,它不仅展示了声音频率随时间的变化,还引入了梅尔刻度(Mel Scale)。
- 核心原理:人耳对频率的感知是非线性的。我们对低频(如 100Hz 到 500Hz)的变化非常敏感,能轻易分辨;但对高频(如 8000Hz 到 8500Hz)的变化则相对迟钝。
- 梅尔刻度:为了模拟这种人耳特性,梅尔频谱图将线性的频率轴(Hz)压缩映射到非线性的梅尔轴(Mel)上。公式通常近似为:
其中 $ f $ 是实际频率, $ m $ 是梅尔频率。- 视觉表现:它是一个二维图像,横轴是时间,纵轴是梅尔频率,颜色的深浅代表该频率在该时刻的能量强度。
3. 梅尔频谱图与其他特征的对比(特别是 MFCC)
在传统语音识别中,MFCC曾是绝对的主流。梅尔频谱图和 MFCC 的计算过程前半部分是一样的,区别在于最后一步:
表格
| 特征类型 | 计算流程 | 特点与应用 |
|---|---|---|
| 梅尔频谱图 | 原始波形 →→ 傅里叶变换 →→梅尔滤波器组→→ 取对数 | 保留更多信息。它是“原始”的声学特征,维度较高(如 80 维)。在深度学习时代,因为它保留了更多细节,常被直接用作模型输入。 |
| MFCC | 原始波形 →→ 傅里叶变换 →→梅尔滤波器组→→ 取对数 →→离散余弦变换 | 去除相关性,高度压缩。离散余弦变换(DCT)进一步压缩了数据,去除了频带间的相关性,维度较低(如 13 维)。在传统 GMM-HMM 模型中非常流行。 |
总结
在深度学习(如 CNN、RNN、Transformer)成为主流的今天,梅尔频谱图因其保留了比 MFCC 更丰富的原始声学信息,且其二维图像结构非常适合卷积神经网络处理,已经成为了许多端到端语音识别和合成系统的首选声学特征。
所以,当你处理语音任务时,提取“梅尔频谱图”就是提取“声学特征”这一核心步骤的具体实施。