FRCRN语音降噪Jupyter扩展：自定义功能开发-深圳市維司達科技有限公司

FRCRN语音降噪Jupyter扩展：自定义功能开发

1. 技术背景与应用场景

随着智能语音设备的普及，语音信号在真实环境中的质量受到噪声干扰的问题日益突出。尤其在单麦克风场景下，缺乏空间信息支持，对降噪算法提出了更高要求。FRCRN（Full-Resolution Complex Residual Network）作为一种基于复数域建模的深度学习语音增强模型，在单通道、16kHz采样率条件下表现出优异的去噪能力。

该模型通过在复数频域中同时处理幅度和相位信息，有效保留了语音细节，显著提升了信噪比和语音可懂度。目前，FRCRN已集成于CSDN星图平台提供的“语音降噪-单麦-16k”AI镜像中，用户可通过一键部署快速体验其推理能力。

然而，在实际应用中，标准推理脚本往往难以满足多样化需求。例如：需要批量处理音频文件、自定义输入输出路径、添加可视化分析模块或集成到更复杂的语音处理流水线中。因此，开发基于Jupyter Notebook的自定义功能扩展，成为提升使用灵活性和工程落地效率的关键。

2. 环境准备与基础运行

2.1 镜像部署与环境激活

本文基于CSDN星图平台提供的预置AI镜像进行开发实践。该镜像已集成PyTorch、Librosa、TensorBoard等必要依赖库，并配置好FRCRN模型权重及推理代码。

部署步骤如下：

在CSDN星图平台选择“语音降噪-单麦-16k”镜像，部署至具备NVIDIA 4090D GPU的实例；
启动服务后，通过Web界面访问Jupyter Lab；
打开终端，执行以下命令激活指定Conda环境：

conda activate speech_frcrn_ans_cirm_16k

cd /root

2.2 基础推理脚本执行

镜像内置1键推理.py脚本，用于快速验证模型功能。该脚本默认读取/root/input目录下的WAV格式音频，经FRCRN模型处理后，将降噪结果保存至/root/output目录。

执行命令为：

python 1键推理.py

此脚本适用于快速测试，但缺乏参数化配置和交互式调试能力。为了实现更灵活的功能拓展，我们将在Jupyter Notebook中重构并扩展其核心逻辑。

3. Jupyter中的自定义功能开发

3.1 构建模块化推理函数

在Jupyter Notebook中，我们将原始脚本的核心逻辑封装为可复用函数，便于后续调用与调试。

import torch import librosa import numpy as np from scipy.io import wavfile import os def load_audio(file_path, sr=16000): """加载音频并归一化""" audio, _ = librosa.load(file_path, sr=sr) return audio.astype(np.float32) def save_audio(audio, file_path, sr=16000): """保存音频，自动处理幅值缩放""" audio = np.clip(audio, -1.0, 1.0) wavfile.write(file_path, sr, (audio * 32767).astype(np.int16)) def stft_transform(audio, n_fft=512, hop_length=256): """短时傅里叶变换，返回复数谱""" return librosa.stft(audio, n_fft=n_fft, hop_length=hop_length) def istft_reconstruct(spec, hop_length=256): """逆短时傅里叶变换，重建时域信号""" return librosa.istft(spec, hop_length=hop_length) def load_frcrn_model(model_path="pretrained/frcrn_ans_cirm_16k.pth"): """加载预训练FRCRN模型""" model = torch.jit.load(model_path) # 假设模型已导出为TorchScript model.eval() return model

上述函数实现了音频加载、STFT变换、模型加载等基础操作，构成了自定义处理流程的基础组件。

3.2 实现带噪声分类的批量处理

为进一步提升实用性，我们在Jupyter中实现一个支持批量处理+噪声类型识别+日志记录的综合功能模块。

import glob from pathlib import Path import logging # 配置日志 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s') logger = logging.getLogger(__name__) def classify_noise_level(noisy_audio, threshold_db=30): """简单信噪比估算用于噪声等级分类""" rms = np.sqrt(np.mean(noisy_audio ** 2)) db = 20 * np.log10(rms + 1e-8) if db < threshold_db: return "high" elif db < 40: return "medium" else: return "low" def batch_denoise_with_classification( input_dir="/root/input", output_dir="/root/output_enhanced", model_path="pretrained/frcrn_ans_cirm_16k.pth" ): """批量降噪主函数""" device = torch.device("cuda" if torch.cuda.is_available() else "cpu") model = load_frcrn_model(model_path).to(device) Path(output_dir).mkdir(exist_ok=True) logger.info(f"开始批量处理，目标目录: {input_dir}") wav_files = glob.glob(os.path.join(input_dir, "*.wav")) results = [] for wav_file in wav_files: try: # 加载音频 noisy_audio = load_audio(wav_file) noisy_spec = stft_transform(noisy_audio) spec_complex = torch.tensor(noisy_spec[None, None, ...]).to(device) # 模型推理 with torch.no_grad(): enhanced_spec_tensor = model(spec_complex) enhanced_spec = enhanced_spec_tensor.cpu().numpy()[0, 0] # 重建音频 enhanced_audio = istft_reconstruct(enhanced_spec) output_path = os.path.join(output_dir, os.path.basename(wav_file)) save_audio(enhanced_audio, output_path) # 噪声分类 noise_level = classify_noise_level(noisy_audio) results.append({ "file": os.path.basename(wav_file), "status": "success", "noise_level": noise_level, "output_path": output_path }) logger.info(f"已完成: {wav_file} -> {output_path} (噪声等级: {noise_level})") except Exception as e: error_msg = str(e) results.append({ "file": os.path.basename(wav_file), "status": "failed", "error": error_msg }) logger.error(f"处理失败 {wav_file}: {error_msg}") return results

该函数不仅完成降噪任务，还增加了错误捕获、日志输出和噪声强度分类功能，极大增强了系统的鲁棒性和可观测性。

3.3 添加可视化分析模块

利用Jupyter的交互优势，我们可以轻松集成音频频谱对比图，直观展示降噪效果。

import matplotlib.pyplot as plt def plot_spectrogram_comparison(noisy_audio, enhanced_audio, title="降噪前后对比"): """绘制频谱图对比""" fig, axes = plt.subplots(2, 1, figsize=(12, 6)) # 计算频谱（dB） noisy_stft = librosa.stft(noisy_audio) enhanced_stft = librosa.stft(enhanced_audio) noisy_db = librosa.amplitude_to_db(np.abs(noisy_stft)) enhanced_db = librosa.amplitude_to_db(np.abs(enhanced_stft)) # 绘图 img1 = librosa.display.specshow(noisy_db, sr=16000, hop_length=256, x_axis="time", y_axis="hz", ax=axes[0]) axes[0].set_title("原始含噪语音") fig.colorbar(img1, ax=axes[0]) img2 = librosa.display.specshow(enhanced_db, sr=16000, hop_length=256, x_axis="time", y_axis="hz", ax=axes[1]) axes[1].set_title("降噪后语音") fig.colorbar(img2, ax=axes[1]) plt.tight_layout() plt.show() # 示例调用 noisy = load_audio("/root/input/test_noisy.wav") enhanced = load_audio("/root/output_enhanced/test_noisy.wav") plot_spectrogram_comparison(noisy, enhanced)

该可视化功能可帮助研究人员快速评估模型性能，识别残留噪声模式，是调试和优化的重要工具。