构建智能访谈系统：SenseVoiceSmall哭声掌声检测实战案例-深圳市維司達科技有限公司

构建智能访谈系统：SenseVoiceSmall哭声掌声检测实战案例

1. 引言：智能语音理解的新范式

在现代人机交互场景中，传统的语音识别（ASR）已无法满足对复杂语义和情感状态的深度理解需求。尤其在访谈、客服、教育等高互动性场景中，仅转录文字远远不够——我们更需要知道“说话人是开心还是愤怒”、“背景是否有掌声或哭声”等上下文信息。

阿里巴巴达摩院推出的SenseVoiceSmall模型正是为此而生。它不仅支持中、英、日、韩、粤五种语言的高精度语音识别，还具备强大的富文本识别能力（Rich Transcription），能够同步检测音频中的情感状态（如开心、愤怒、悲伤）以及声音事件（如BGM、掌声、笑声、哭声）。这一特性使其成为构建智能访谈系统的理想选择。

本文将围绕一个实际应用场景——智能访谈系统中的情绪与事件感知，详细介绍如何基于开源的 SenseVoiceSmall 模型搭建具备哭声、掌声检测能力的 WebUI 系统，并提供完整的部署流程与代码解析。

2. 技术架构与核心组件

2.1 模型选型：为什么选择 SenseVoiceSmall？

在众多语音理解模型中，SenseVoiceSmall 的优势在于其“非自回归 + 富文本输出”的设计思路：

非自回归架构：相比传统自回归模型逐字生成文本，SenseVoiceSmall 可并行解码，显著降低推理延迟，在 NVIDIA 4090D 上可实现秒级长音频转写。
端到端富文本输出：无需额外后处理模块，模型原生输出包含<|HAPPY|>、<|APPLAUSE|>等标签，极大简化了情感与事件识别流程。
多语言通用性：单一模型支持中文、英文、粤语、日语、韩语，适用于国际化访谈场景。

2.2 系统整体架构

本系统采用轻量级前后端一体化设计，结构如下：

[用户上传音频] ↓ [Gradio WebUI] → [FunASR AutoModel 加载 SenseVoiceSmall] ↓ [模型推理] → [生成带标签的原始文本] ↓ [rich_transcription_postprocess 清洗] ↓ [返回可读性强的富文本结果]

关键依赖库包括：

funasr：阿里官方 ASR 工具包，用于加载模型和推理
modelscope：模型下载与管理
gradio：快速构建可视化界面
av/ffmpeg：音频解码与重采样支持

3. 实战部署：从零搭建 WebUI 服务

3.1 环境准备

确保运行环境满足以下条件：

# Python 版本要求 python==3.11 # 安装核心库 pip install torch==2.5 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 pip install funasr modelscope gradio av

注意：若使用 GPU，请确认 CUDA 驱动正常且 PyTorch 支持cuda:0设备。

3.2 创建 Web 应用主程序

创建文件app_sensevoice.py，内容如下：

import gradio as gr from funasr import AutoModel from funasr.utils.postprocess_utils import rich_transcription_postprocess import os # 初始化模型 model_id = "iic/SenseVoiceSmall" model = AutoModel( model=model_id, trust_remote_code=True, vad_model="fsmn-vad", vad_kwargs={"max_single_segment_time": 30000}, device="cuda:0", # 使用 GPU 加速 )

模型参数说明：

trust_remote_code=True：允许加载远程自定义代码（如模型定义）
vad_model="fsmn-vad"：启用语音活动检测，自动切分静音段
max_single_segment_time=30000：单段最长 30 秒，避免过长片段影响识别质量
device="cuda:0"：指定使用第一块 GPU，提升推理速度

3.3 定义音频处理函数

def sensevoice_process(audio_path, language): if audio_path is None: return "请先上传音频文件" res = model.generate( input=audio_path, cache={}, language=language, use_itn=True, # 数字转文字（如 "123" → "一百二十三"） batch_size_s=60, # 批处理时间长度 merge_vad=True, # 合并 VAD 切片 merge_length_s=15, # 每 15 秒合并一次 ) if len(res) > 0: raw_text = res[0]["text"] clean_text = rich_transcription_postprocess(raw_text) return clean_text else: return "识别失败"

该函数接收音频路径和语言参数，调用模型进行推理，并通过rich_transcription_postprocess将原始标签转换为易读格式。例如：

原始输出：<|zh|><|HAPPY|>今天天气真好啊<|LAUGHTER|> 清洗后：[中文][开心] 今天天气真好啊（笑声）

3.4 构建 Gradio 交互界面

with gr.Blocks(title="SenseVoice 多语言语音识别") as demo: gr.Markdown("# 🎙️ SenseVoice 智能语音识别控制台") gr.Markdown(""" **功能特色：** - 🚀 **多语言支持**：中、英、日、韩、粤语自动识别。 - 🎭 **情感识别**：自动检测音频中的开心、愤怒、悲伤等情绪。 - 🎸 **声音事件**：自动标注 BGM、掌声、笑声、哭声等。 """) with gr.Row(): with gr.Column(): audio_input = gr.Audio(type="filepath", label="上传音频或直接录音") lang_dropdown = gr.Dropdown( choices=["auto", "zh", "en", "yue", "ja", "ko"], value="auto", label="语言选择 (auto 为自动识别)" ) submit_btn = gr.Button("开始 AI 识别", variant="primary") with gr.Column(): text_output = gr.Textbox(label="识别结果 (含情感与事件标签)", lines=15) submit_btn.click( fn=sensevoice_process, inputs=[audio_input, lang_dropdown], outputs=text_output ) demo.launch(server_name="0.0.0.0", server_port=6006)

界面包含三大区域：

左侧：音频输入 + 语言选择下拉框
中间：提交按钮
右侧：富文本输出框，展示带情感与事件标记的结果

3.5 启动服务

保存文件后执行：

python app_sensevoice.py

服务将在http://0.0.0.0:6006启动。由于云服务器通常不开放公网访问，需通过 SSH 隧道本地映射：

ssh -L 6006:127.0.0.1:6006 -p [SSH端口] root@[服务器IP]

连接成功后，在本地浏览器访问：
👉 http://127.0.0.1:6006

即可看到如下界面：

4. 应用场景分析：智能访谈系统中的价值体现

4.1 哭声检测：识别受访者情绪波动

在心理咨询、社会调研类访谈中，受访者的哭泣往往意味着强烈的情感表达。传统方式依赖人工回听判断，效率低下。

使用 SenseVoiceSmall，系统可自动识别<|CRY|>标签，并结合上下文定位关键片段。例如：

[中文][悲伤] 我真的很难过……（哭声）

此信息可用于：

自动生成“情绪高点”时间戳
触发后续追问逻辑（在对话机器人中）
辅助分析师快速定位敏感内容

4.2 掌声检测：评估演讲反馈效果

在公开演讲、发布会、教学课堂等场景中，掌声是观众积极反馈的重要指标。

通过检测<|APPLAUSE|>事件，系统可统计：

掌声次数
持续时长
出现位置（开场/结尾/观点共鸣处）

进而生成“听众反应热力图”，帮助讲者优化表达节奏。

4.3 多模态融合潜力

未来可进一步结合视频流（通过 Vision 模型）实现：

哭声 + 面部表情一致性验证
掌声 + 观众鼓掌动作识别
笑声 + 微笑程度匹配

形成真正的“情感感知闭环”。

5. 总结

本文以构建智能访谈系统为目标，深入实践了阿里开源模型SenseVoiceSmall在哭声、掌声等声音事件检测中的应用。通过集成 Gradio WebUI，实现了无需编码即可使用的可视化语音理解平台。

核心收获总结如下：

技术优势明确：SenseVoiceSmall 凭借非自回归架构和富文本输出能力，在低延迟前提下实现了情感与事件的联合识别，远超传统 ASR 模型。
工程落地简便：借助 FunASR 和 Gradio，仅需百行代码即可完成从模型加载到 Web 服务部署的全流程。
应用场景广泛：无论是心理访谈的情绪捕捉，还是演讲现场的反馈分析，该方案均具备高度可扩展性。

下一步建议：

将识别结果接入数据库，建立“情绪时间轴”索引
开发 API 接口供其他系统调用
结合 LLM 对富文本结果做摘要与洞察提取

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

构建智能访谈系统：SenseVoiceSmall哭声掌声检测实战案例