FSMN-VAD数据导出：将语音片段信息保存为CSV文件-深圳市維司達科技有限公司

FSMN-VAD数据导出：将语音片段信息保存为CSV文件

1. 引言

1.1 场景背景与需求分析

在语音识别、音频内容分析和智能语音交互系统中，语音端点检测（Voice Activity Detection, VAD）是至关重要的预处理步骤。它用于从连续的音频流中准确识别出有效语音段，剔除静音或无意义的背景噪声部分，从而提升后续处理模块的效率与准确性。

基于 ModelScope 平台提供的达摩院 FSMN-VAD 模型，开发者可以快速构建一个离线语音检测服务。该工具不仅支持本地音频文件上传，还允许通过麦克风进行实时录音测试，并以结构化表格形式输出每个语音片段的开始时间、结束时间和持续时长。然而，在实际工程应用中，仅在前端展示 Markdown 表格并不足以满足进一步的数据分析、自动化切片或批量处理的需求。

因此，将检测结果导出为标准数据格式（如 CSV）成为关键扩展功能。CSV 文件具有良好的通用性，可被 Excel、Pandas、数据库系统等广泛读取和处理，适用于语音数据清洗、标注、训练集准备等多种下游任务。

1.2 本文目标

本文将在原有 FSMN-VAD Web 控制台的基础上，实现语音片段信息自动导出为 CSV 文件的功能，并提供完整的代码修改方案、使用说明及最佳实践建议。最终用户不仅可以查看检测结果，还能一键下载结构化的语音片段元数据，极大增强系统的实用性与集成能力。

2. 功能扩展设计

2.1 原有系统架构回顾

当前 FSMN-VAD 系统基于 Gradio 构建，核心流程如下：

用户上传音频或录音；
调用speech_fsmn_vad_zh-cn-16k-common-pytorch模型进行端点检测；
解析模型返回的时间戳列表（单位：毫秒）；
格式化为 Markdown 表格在页面上渲染显示。

其输出为纯文本形式的表格，缺乏可编程访问接口和持久化能力。

2.2 扩展功能设计目标

为了实现数据导出功能，需对原系统做以下增强：

结构化数据生成：将语音片段信息组织为 Python 列表或字典结构；
CSV 文件生成：利用标准库csv或pandas将数据写入临时 CSV 文件；
Gradio 下载组件集成：添加“下载结果”按钮，触发文件传输；
用户体验优化：确保导出文件命名规范（如包含时间戳），避免冲突。

3. 实现步骤详解

3.1 修改服务脚本：支持 CSV 导出逻辑

我们将在原有web_app.py的基础上，新增 CSV 导出功能。以下是完整更新后的代码（含注释说明）：

import os import csv import gradio as gr from modelscope.pipelines import pipeline from modelscope.utils.constant import Tasks from datetime import datetime # 设置模型缓存路径 os.environ['MODELSCOPE_CACHE'] = './models' # 初始化 VAD 模型 print("正在加载 VAD 模型...") vad_pipeline = pipeline( task=Tasks.voice_activity_detection, model='iic/speech_fsmn_vad_zh-cn-16k-common-pytorch' ) print("模型加载完成！") def process_vad(audio_file): if audio_file is None: return "请先上传音频或录音", None try: result = vad_pipeline(audio_file) # 兼容处理模型返回格式 if isinstance(result, list) and len(result) > 0: segments = result[0].get('value', []) else: return "模型返回格式异常", None if not segments: return "未检测到有效语音段。", None # 构建 Markdown 表格 formatted_res = "### 🎤 检测到以下语音片段 (单位: 秒):\n\n" formatted_res += "| 片段序号 | 开始时间 | 结束时间 | 时长 |\n| :--- | :--- | :--- | :--- |\n" # 准备 CSV 数据 csv_data = [["序号", "开始时间(秒)", "结束时间(秒)", "时长(秒)"]] for i, seg in enumerate(segments): start_ms, end_ms = seg[0], seg[1] start_s, end_s = start_ms / 1000.0, end_ms / 1000.0 duration_s = end_s - start_s formatted_res += f"| {i+1} | {start_s:.3f}s | {end_s:.3f}s | {duration_s:.3f}s |\n" csv_data.append([i+1, round(start_s, 3), round(end_s, 3), round(duration_s, 3)]) # 写入临时 CSV 文件 timestamp = datetime.now().strftime("%Y%m%d_%H%M%S") filename = f"vad_segments_{timestamp}.csv" filepath = os.path.join("output", filename) # 确保输出目录存在 os.makedirs("output", exist_ok=True) with open(filepath, mode='w', encoding='utf-8', newline='') as f: writer = csv.writer(f) writer.writerows(csv_data) return formatted_res, filepath except Exception as e: return f"检测失败: {str(e)}", None # 构建 Gradio 界面 with gr.Blocks(title="FSMN-VAD 语音检测") as demo: gr.Markdown("# 🎙️ FSMN-VAD 离线语音端点检测") with gr.Row(): with gr.Column(): audio_input = gr.Audio(label="上传音频或录音", type="filepath", sources=["upload", "microphone"]) run_btn = gr.Button("开始端点检测", variant="primary", elem_classes="orange-button") with gr.Column(): output_text = gr.Markdown(label="检测结果") download_file = gr.File(label="下载CSV结果", visible=True) run_btn.click(fn=process_vad, inputs=audio_input, outputs=[output_text, download_file]) demo.css = ".orange-button { background-color: #ff6600 !important; color: white !important; }" if __name__ == "__main__": demo.launch(server_name="127.0.0.1", server_port=6006)

3.2 关键改动说明

改动点	说明
返回值扩展	`process_vad`函数现在返回两个值：Markdown 字符串和 CSV 文件路径
CSV 写入	使用 Python 内置`csv`模块生成结构化文件，避免引入额外依赖
时间戳命名	文件名包含时间戳，防止重复覆盖
输出目录管理	自动创建`output/`目录存放导出文件
Gradio 组件更新	添加`gr.File`组件用于文件下载

4. 部署与使用指南

4.1 环境准备（同原项目）

确保已安装必要的系统和 Python 依赖：

# 系统依赖 apt-get update && apt-get install -y libsndfile1 ffmpeg # Python 包 pip install modelscope gradio soundfile torch

4.2 启动服务

执行更新后的脚本：

python web_app.py

服务启动后访问 http://127.0.0.1:6006

4.3 使用流程

上传.wav或.mp3音频文件，或使用麦克风录制；
点击“开始端点检测”按钮；
页面右侧将显示语音片段表格；
在下方点击“下载CSV结果”即可获取结构化数据文件。

导出的 CSV 示例内容如下：

序号,开始时间(秒),结束时间(秒),时长(秒) 1,1.234,3.567,2.333 2,5.100,8.420,3.320 3,10.050,12.780,2.730

5. 应用场景与优势

5.1 典型应用场景

语音识别预处理：将长音频按语音段自动切分，作为 ASR 输入；
语音数据标注：为人工标注提供初始分割建议，提高标注效率；
会议纪要生成：结合说话人分离技术，构建带时间戳的发言记录；
教学视频分析：统计教师讲解时段分布，辅助教学质量评估；
自动化测试：批量处理大量录音文件，验证 VAD 模型性能指标。

5.2 功能优势总结

优势	说明
✅ 标准化输出	CSV 是最通用的数据交换格式，兼容性强
✅ 可追溯性	文件名含时间戳，便于版本管理和日志追踪
✅ 易于集成	可被 Pandas、SQL、BI 工具直接读取分析
✅ 轻量高效	不依赖数据库，适合边缘设备和轻量部署