图解说明ESP32如何采集并分类音频信号（入门篇）-深圳市維司達科技有限公司

从零开始：用ESP32听懂世界——手把手教你实现音频采集与分类

你有没有想过，让一块成本不到30元的ESP32“听”出拍手声、人声甚至警报？这听起来像是高端AI芯片才能做的事，但其实，在资源受限的MCU上，我们完全可以用轻量级算法+合理设计，实现真正可用的本地音频感知系统。

本文不讲空话，也不堆砌术语。我们将以一个真实可运行的项目为主线，带你一步步完成从硬件接线到代码部署的全过程，最终让你的ESP32不仅能“听见”，还能“判断”。

为什么是ESP32？它真能做音频智能吗？

别被“智能”两个字吓退。在嵌入式领域，“智能”往往不是指跑大模型，而是对环境做出有意义的响应。比如：

拍两下手，灯就亮；
检测到婴儿哭声，自动推送通知；
听见玻璃破碎声，触发安防报警。

这些任务不需要识别每一个字，只需要分辨声音类型。而ESP32，恰恰是一个非常适合这类场景的平台。

它的优势很实在：

双核240MHz CPU：足够处理实时音频流；
内置I²S接口：原生支持数字麦克风（PDM/PCM）；
Wi-Fi + 蓝牙：采集完可以直接发到手机或云；
开发生态成熟：ESP-IDF 提供完整驱动和工具链；
价格低廉：主控模块十几块钱就能买到。

当然，它也有短板：没有硬件浮点单元（FPU），内存有限（通常384KB RAM）。但这并不意味着不能做音频处理——关键在于方法得当。

第一步：让ESP32“听见”声音

要让MCU听声音，第一步是选对麦克风和采集方式。这里有两条路可走：模拟输入和数字输入。我们先看哪个更靠谱。

方案一：模拟麦克风 + ADC（简单但坑多）

最直观的方式是用驻极体麦克风模块（带放大器的那种），接到ESP32的GPIO34~39（只有ADC1支持DMA）。

adc1_config_width(ADC_WIDTH_BIT_12); adc1_config_channel_atten(ADC1_CHANNEL_6, ADC_ATTEN_DB_0); // GPIO34 int value = adc1_get_raw(ADC1_CHANNEL_6);

看似简单，实则问题一堆：
- ESP32的ADC非线性严重，参考电压不稳定；
- 易受电源噪声干扰，采样结果跳变厉害；
- 最高采样率勉强到8kHz，且难以持续；
- 不支持立体声扩展。

🚫 结论：适合做粗略音量检测，不适合任何需要稳定特征提取的应用。

方案二：数字麦克风 + I²S PDM（推荐！）

这才是正道。使用像INMP441这类PDM数字麦克风，通过I²S接口直接输出比特流，由ESP32内部抽取滤波器转为PCM数据。

PDM是怎么工作的？

你可以把它想象成“密度调制”：声音越大，高电平出现得越密集；声音小，就稀疏。ESP32的I²S外设自带PDM解码器 + 抽取滤波器，能把这个单比特流还原成16位PCM样本。

好处非常明显：

抗干扰强，长距离传输也不怕；
支持16kHz、32kHz高采样率；
数据干净，便于后续分析；
可轻松升级为双麦阵列。

实战：配置I²S读取PDM麦克风

下面这段代码基于ESP-IDF（强烈建议不用Arduino），初始化I²S并开始接收音频数据。

#include "driver/i2s.h" #define I2S_MIC_PIN_WS 25 // LRCL #define I2S_MIC_PIN_CLK 26 // BCLK #define I2S_MIC_PIN_SD 33 // DOUT void setup_i2s_microphone() { i2s_config_t i2s_config = { .mode = I2S_MODE_MASTER | I2S_MODE_RX | I2S_MODE_PDM, .sample_rate = 16000, .bits_per_sample = I2S_BITS_PER_SAMPLE_16BIT, .channel_format = I2S_CHANNEL_FMT_ONLY_LEFT, .communication_format = I2S_COMM_FORMAT_STAND_I2S, .dma_buf_count = 8, .dma_buf_len = 64, .use_apll = false }; i2s_pin_config_t pin_config = { .bck_io_num = I2S_MIC_PIN_CLK, .ws_io_num = I2S_MIC_PIN_WS, .data_out_num = -1, .data_in_num = I2S_MIC_PIN_SD }; i2s_driver_install(I2S_NUM_0, &i2s_config, 0, NULL); i2s_set_pin(I2S_NUM_0, &pin_config); i2s_set_clk(I2S_NUM_0, 16000, I2S_BITS_PER_SAMPLE_16BIT, I2S_CHANNEL_MONO); }

然后就可以批量读取音频帧了：

#define FRAME_SIZE 160 // 10ms @ 16kHz void read_audio_frame(int16_t* buffer) { size_t bytes_read; i2s_read(I2S_NUM_0, buffer, FRAME_SIZE * sizeof(int16_t), &bytes_read, portMAX_DELAY); }

✅ 小贴士：FRAME_SIZE=160对应10ms一帧，这是语音处理的经典窗口长度，兼顾实时性和频谱分辨率。

第二步：让ESP32“理解”声音——分类怎么做？

现在我们有了PCM数据，下一步就是从中提取有用信息，并判断它是哪种声音。

在服务器端，你可能会用CNN-LSTM模型。但在ESP32上，我们要换思路：用物理特征 + 规则引擎。

核心思想：不同的声音有不同的“指纹”

比如：
-人声：中等频率，能量集中；
-拍手声：瞬态冲击，高频丰富；
-静音：能量极低；
-哨子/警报：单一高频成分突出。

我们可以提取几个轻量级特征来区分它们。

特征1：声音有多响？——RMS能量

RMS（均方根）反映的是信号的整体强度，是最基础也最有效的判据之一。

float calculate_rms(const int16_t* samples, int len) { int64_t sum = 0; for (int i = 0; i < len; ++i) { sum += (int64_t)samples[i] * samples[i]; } return sqrtf((float)(sum / len)); }

💡 应用场景：设置一个阈值，低于它就是“静音”，高于它才进入进一步分析。

特征2：声音有多“尖”？——过零率（ZCR）

过零率衡量单位时间内信号穿越零点的次数，间接反映频率高低。

int calculate_zcr(const int16_t* samples, int len) { int count = 0; for (int i = 1; i < len; ++i) { if ((samples[i] > 0 && samples[i-1] <= 0) || (samples[i] < 0 && samples[i-1] >= 0)) { count++; } } return count; }

举个例子：
- 鼓声：低频缓慢变化 → ZCR低（<20/160）
- 拍手/哨声：高频快速振荡 → ZCR高（>60/160）

特征3：有没有特定频率？——Goertzel算法（替代FFT）

ESP32没有FPU，跑完整FFT代价太高。但我们只关心某个频段？比如检测1kHz提示音？

这时可以用Goertzel算法，计算效率远高于FFT，代码仅几十行。

// 检测目标频率是否显著存在 float goertzel(const int16_t* data, int N, float target_freq, float sample_rate) { float coeff = 2.0 * cos(2.0 * M_PI * target_freq / sample_rate); float q1 = 0, q2 = 0; for (int i = 0; i < N; ++i) { float q0 = coeff * q1 - q2 + data[i]; q2 = q1; q1 = q0; } return q1 * q1 + q2 * q2 - q1 * q2 * coeff; }

✅ 实战用途：检测设备自检提示音、门铃音、火灾报警器频率（约3kHz）等。

分类逻辑怎么写？别用if太多！

光有特征还不够，还得组合起来做决策。这里有个技巧：分层过滤。

typedef enum { SOUND_SILENCE, SOUND_VOICE, SOUND_CLAP, SOUND_ALARM, SOUND_UNKNOWN } sound_class_t; sound_class_t classify_sound(const int16_t* audio_frame, int frame_size) { float rms = calculate_rms(audio_frame, frame_size); int zcr = calculate_zcr(audio_frame, frame_size); if (rms < 50) { return SOUND_SILENCE; } if (zcr > 70 && rms > 200) { return SOUND_CLAP; // 高频+高强度 → 拍手 } if (zcr > 50 && goertzel(audio_frame, frame_size, 1000, 16000) > 1e9) { return SOUND_ALARM; // 特定频率爆发 → 报警 } if (zcr > 25 && zcr < 60) { return SOUND_VOICE; // 中频为主 → 说话 } return SOUND_UNKNOWN; }

你看，整个过程不到50行代码，RAM占用不到2KB，Flash增加不到20KB，却已经能完成基本的声音语义理解。

系统怎么搭？FreeRTOS多任务实战

别忘了，ESP32跑的是FreeRTOS，我们可以把不同功能拆成独立任务，提升稳定性。

工程避坑指南：老手才懂的细节

别以为代码跑通就万事大吉。实际部署中，这些问题会让你崩溃：

❌ 问题1：环境噪声太大，误触发频繁

解决方案：
- 加一个高通滤波去直流偏移和嗡嗡声：
c static int16_t last_sample = 0; int16_t filtered = raw_sample - last_sample + 0.95 * last_sample; last_sample = filtered;
- 使用动态阈值：每隔几秒记录背景噪声水平，自动调整灵敏度。

❌ 问题2：CPU占用过高，WiFi断连

优化手段：
- 降低采样率至8kHz（语音足够）；
- 用DMA双缓冲机制，减少中断频率；
- 分类不要每帧都做，改为每10帧（100ms）处理一次。

❌ 问题3：内存不够用，malloc失败

设计铁律：
- 所有缓冲区静态分配，禁止频繁malloc/free；
- 总动态内存使用不超过可用堆的50%；
- 关闭不必要的日志输出（尤其是串口打印PCM）。

项目	推荐型号
主控	ESP32-WROOM-32
麦克风	INMP441（PDM，信噪比62dB）
开发框架	ESP-IDF v5.x
采样率	16kHz（通用）、8kHz（省资源）
帧长	160点（10ms）
分类周期	每100ms执行一次

能做什么？这些创意你可以立刻尝试

掌握了这套方法，你能做的远不止“听个响”：

手势声控灯：三连击开灯，双击调亮度；
婴儿哭声监测器：夜间检测哭声，推送到父母手机；
工厂异响预警：监听电机异常噪音，提前维护；
教室纪律助手：检测突发喧哗，提醒老师；
宠物行为分析：猫叫狗吠自动记录统计。

更重要的是，这套技术范式可以迁移到其他传感器：振动、电流、温度……一旦你学会如何从原始信号中提取特征并决策，你就掌握了边缘智能的核心能力。

写在最后：这不是终点，而是起点

也许你会说：“这不就是几个if判断吗？”
没错，但它背后是一整套嵌入式感知系统的构建思维：

如何在资源限制下做权衡？
如何将物理现象转化为可计算的特征？
如何设计鲁棒的规则应对复杂环境？

这些问题的答案，正是通往 TinyML、Keyword Spotting、Edge AI 的阶梯。

当你有一天能在ESP32上跑通TensorFlow Lite Micro模型时，请记得回来看看这篇入门文章——因为所有的高楼，都是从第一块砖垒起的。

如果你动手实现了这个项目，欢迎在评论区晒出你的成果：你是用它来控制灯光？还是做了一个专属唤醒词？我们一起交流，让小设备变得更聪明。

图解说明ESP32如何采集并分类音频信号（入门篇）