FunASR语音识别教程：多说话人分离功能-深圳市維司達科技有限公司

FunASR语音识别教程：多说话人分离功能

1. 引言

随着语音交互技术的快速发展，实际应用场景中常常面临多人同时或交替发言的情况。传统的语音识别系统往往将整段音频视为单一说话人处理，导致文本混乱、角色混淆，难以满足会议记录、访谈转录等复杂场景的需求。

FunASR 是一个由阿里巴巴开源的高性能语音识别工具包，支持多种中文语音识别模型和高级功能扩展。本文重点介绍基于speech_ngram_lm_zh-cn模型二次开发实现的多说话人分离功能（Speaker Diarization），该版本由开发者“科哥”进行 WebUI 封装与优化，显著提升了易用性和实用性。

本教程将带你从零开始掌握如何使用 FunASR 实现高精度的多说话人语音识别，涵盖环境部署、参数配置、功能使用及结果解析全过程，并提供可落地的工程建议。

2. 多说话人分离原理与技术架构

2.1 什么是说话人分离？

说话人分离（Speaker Diarization），又称“谁在什么时候说话”（Who spoke when），其目标不是识别语音内容，而是判断一段对话中不同语音片段属于哪个说话人。它通常包含以下三个核心步骤：

语音活动检测（VAD）：识别出哪些时间段有语音，哪些是静音。
声纹嵌入提取（Speaker Embedding）：为每个语音片段提取独特的声学特征向量（即“声纹”）。
聚类分析（Clustering）：根据声纹相似度对语音段进行分组，每组代表一个独立说话人。

最终输出带有说话人标签的时间戳文本，例如：

[SPK1] 你好，今天我们要讨论项目进度。 [SPK2] 我这边已经完成了前端开发。

2.2 FunASR 中的实现机制

FunASR 基于pyannote-audio和自研声纹模型实现了高效的说话人分离流程。其核心技术链路如下：

原始音频 ↓ VAD 检测语音区间 → 切分成多个语音片段 ↓ X-vector / ECAPA-TDNN 提取声纹嵌入 ↓ 谱聚类（Spectral Clustering）或余弦距离聚类 ↓ 生成带说话人标签的 SRT/JSON 输出

其中，speech_ngram_lm_zh-cn模型在语言建模层面对中文语义进行了增强，结合声学模型可进一步提升跨说话人边界的识别连贯性。

2.3 关键优势与适用场景

优势	说明
高精度声纹区分	支持最小 0.5 秒的语音片段分类，适用于快速交替对话
中文优化	使用专为普通话训练的声纹模型，避免英文模型迁移带来的偏差
端到端集成	与 Paraformer 识别模型无缝衔接，无需额外后处理
支持长音频	可处理长达 5 分钟以上的会议录音

典型应用场景： - 企业会议纪要自动生成 - 教学课堂师生对话分析 - 法庭庭审记录数字化 - 多角色播客字幕制作

3. 功能配置与使用方法

3.1 启动服务与访问界面

确保已成功部署 FunASR WebUI 后，在浏览器中打开：

http://localhost:7860

或远程访问：

http://<服务器IP>:7860

提示：首次加载模型可能需要 1–2 分钟，请耐心等待控制面板显示“✓ 模型已加载”。

3.2 开启多说话人分离功能

目前 WebUI 默认未显式暴露“说话人分离”开关，需通过以下方式启用：

方法一：修改配置文件（推荐）

编辑config.yaml文件，添加或更新以下字段：

diarization: enabled: true model: "ecapa_tdnn" min_speakers: 1 max_speakers: 4 embedding_size: 192

保存后重启服务即可生效。

方法二：命令行启动时指定参数

python app.main --enable_diarization --max_speakers 3

3.3 使用流程详解

步骤 1：上传支持格式的音频

支持格式包括： - WAV (.wav) - MP3 (.mp3) - M4A (.m4a) - FLAC (.flac)

推荐使用16kHz 单声道 PCM 编码 WAV 文件以获得最佳效果。

步骤 2：选择合适模型与设备

选项	推荐设置
模型选择	Paraformer-Large（精度优先）
设备选择	CUDA（如有 GPU）
语言设置	`zh`（中文）或`auto`（自动检测）

步骤 3：开启关键辅助功能

勾选以下选项以提升分离质量： - ✅ 启用标点恢复 (PUNC) - ✅ 启用语音活动检测 (VAD) - ✅ 输出时间戳

步骤 4：开始识别

点击"开始识别"按钮，系统将依次执行： 1. VAD 分割语音段 2. 提取声纹并聚类 3. 调用 ASR 模型识别内容 4. 合成带说话人标签的结果

处理时间约为音频时长的 0.3–0.6 倍（GPU 加速下）。

3.4 查看与导出结果

识别完成后，可在下方查看三种格式的结果：

文本结果（带说话人标签）

[SPK1] 大家早上好，我们开始今天的项目例会。 [SPK2] 我负责后端接口开发，目前已完成用户模块。 [SPK1] 前端有没有遇到什么问题？ [SPK3] 图片上传组件还在调试，预计明天可以联调。

时间戳信息（按说话人划分）

[SPK1] [001] 0.000s - 3.200s (时长: 3.200s) [SPK2] [002] 3.500s - 7.800s (时长: 4.300s) [SPK1] [003] 8.000s - 9.500s (时长: 1.500s) [SPK3] [004] 9.800s - 13.200s (时长: 3.400s)

SRT 字幕文件（可用于视频剪辑）

1 00:00:00,000 --> 00:00:03,200 [SPK1] 大家早上好，我们开始今天的项目例会。 2 00:00:03,500 --> 00:00:07,800 [SPK2] 我负责后端接口开发，目前已完成用户模块。

3.5 结果下载与存储路径

所有输出文件自动保存至：

outputs/outputs_YYYYMMDDHHMMSS/

目录结构示例如下：

outputs/outputs_20260104123456/ ├── audio_001.wav ├── result_001.json ├── text_001.txt └── subtitle_001.srt

其中text_001.txt包含带[SPKx]标签的纯文本，便于后续导入文档系统或做 NLP 分析。

4. 实践技巧与性能优化

4.1 提高说话人分离准确率的策略

技巧	说明
控制环境噪音	在安静环境中录制，减少混响干扰声纹提取
保持固定麦克风位置	避免频繁移动造成音量波动影响 VAD 判断
说话人间隔清晰	每人发言后稍作停顿（>0.5s），利于边界分割
避免重叠发言	尽量避免两人同时讲话，否则可能导致误判为同一人

4.2 模型选择建议

场景	推荐模型	理由
高精度会议转录	Paraformer-Large + diarization	准确率高，适合正式场合
快速实时录音	SenseVoice-Small（暂不支持分离）	速度极快但无说话人分离能力
混合语言对话	使用`auto`语言模式	自动识别中英文切换

⚠️ 注意：当前SenseVoice-Small模型尚未集成说话人分离功能，如需此特性请务必选择Paraformer-Large。

4.3 批量大小（Chunk Size）设置建议

批量大小决定了每次送入模型的音频长度（单位：秒）。合理设置有助于平衡内存占用与识别延迟。

设置值	适用场景
60 秒	实时性要求高，低延迟响应
180–300 秒	通用会议录音，推荐默认值
600 秒	超长讲座/访谈，需足够 GPU 显存

建议在300 秒左右进行测试，若出现 OOM 错误则逐步下调。

5. 常见问题与解决方案

5.1 说话人数量识别错误

现象：应为三人对话，结果只分为两组。

原因分析： - 其中两位说话人音色相近（如均为年轻男性） - 存在较长时间的静音缺失，导致 VAD 合并语音段

解决方法： - 在配置中手动设定min_speakers: 3,max_speakers: 3- 使用更高维声纹模型（如embedding_size: 512） - 对原始音频进行预处理，增加说话人间隔

5.2 说话人标签跳变（Label Switching）

现象：同一人前后被标记为 SPK1 和 SPK2。

原因：聚类算法在长音频中可能出现漂移。

缓解方案： - 分段处理超过 10 分钟的音频（每段 5 分钟以内） - 启用滑动窗口重叠机制（stride=0.5） - 后期使用规则引擎统一命名（如结合上下文关键词）

5.3 GPU 显存不足

报错示例：

CUDA out of memory. Tried to allocate 2.00 GiB

应对措施： 1. 切换至 CPU 模式（牺牲速度） 2. 降低 batch size 至 60–120 秒 3. 使用更小模型（未来期待轻量级分离模型发布）

6. 总结

本文系统介绍了基于 FunASR 的多说话人分离功能在实际项目中的应用方法。通过整合 VAD、声纹嵌入与聚类算法，配合 Paraformer-Large 高精度识别模型，能够有效实现“谁在什么时候说了什么”的完整语音理解闭环。

核心要点回顾： 1.技术本质：说话人分离依赖声纹特征提取与聚类，非传统 ASR 内容识别。 2.工程实践：需正确配置diarization.enabled参数并选择大模型才能启用该功能。 3.结果输出：支持带[SPKx]标签的文本、SRT 字幕和 JSON 详细信息导出。 4.优化方向：控制录音质量、避免重叠发言、合理设置批处理大小可显著提升效果。

尽管当前仍存在标签跳变、显存消耗高等挑战，但随着模型轻量化和算法迭代，多说话人分离将在智能办公、教育科技、司法记录等领域发挥更大价值。

建议开发者持续关注 FunASR 官方仓库更新，及时获取新模型与功能补丁。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

FunASR语音识别教程：多说话人分离功能