法庭庭审记录增强：情感与掌声自动标注部署案例-深圳市維司達科技有限公司

法庭庭审记录增强：情感与掌声自动标注部署案例

1. 引言

在司法信息化建设不断推进的背景下，法庭庭审记录的数字化与智能化成为提升审判效率、保障程序公正的重要手段。传统的语音转文字技术仅能实现基础的“听写”功能，难以捕捉庭审过程中关键的情绪波动和现场反应（如旁听人员鼓掌、情绪激动等），限制了其在复盘分析、舆情研判等场景中的深度应用。

为此，基于阿里巴巴达摩院开源的SenseVoiceSmall多语言语音理解模型，本文提出一种面向法庭场景的富文本语音识别增强方案。该方案不仅支持中、英、日、韩、粤语等多种语言的高精度识别，更具备情感识别（开心、愤怒、悲伤）与声音事件检测（掌声、笑声、背景音乐）能力，能够为每一段发言自动添加上下文语义标签，显著提升庭审记录的信息密度与可读性。

本实践采用集成 Gradio WebUI 的 GPU 加速镜像进行部署，实现了零代码交互式使用，适用于法院信息化系统集成、智能书记员辅助工具开发等实际工程场景。

2. 技术架构与核心能力解析

2.1 SenseVoiceSmall 模型特性

SenseVoice 系列模型由阿里云 IIC 团队研发，专为富文本语音识别（Rich Transcription）任务设计。相比传统 ASR 模型仅输出纯文本，SenseVoice 能够同步感知音频中的非语言信息，生成包含情感、语气、环境音等元数据的结构化输出。

核心优势：

多语言通用性：支持中文普通话、英语、日语、韩语、粤语五种主要语种，满足涉外案件或多方言区域的应用需求。
非自回归架构：采用端到端的 SqueezeFormer 结构，推理速度比传统自回归模型快 3–5 倍，在 NVIDIA 4090D 上可实现秒级长音频转写。
富文本输出能力：
- 情感标签：<|HAPPY|>、<|ANGRY|>、<|SAD|>
- 声音事件：<|APPLAUSE|>、<|LAUGHTER|>、<|BGM|>、<|CRY|>
内置标点与后处理：无需额外挂载标点恢复模型，原生支持句子边界划分与口语化表达清洗。

2.2 富文本后处理机制

模型原始输出为带特殊标记的富文本序列，例如：

<|zh|><|HAPPY|>今天我感到非常满意<|APPLAUSE|>谢谢法官！

通过调用funasr.utils.postprocess_utils.rich_transcription_postprocess()函数，可将其转换为人类可读格式：

【中文｜情绪：喜悦】今天我感到非常满意【事件：掌声】谢谢法官！

这一机制使得后续对庭审过程的情感趋势分析、公众反应统计成为可能。

3. 部署实施流程

3.1 环境准备

本方案基于预配置的 Docker 镜像运行，已集成以下依赖：

组件	版本	说明
Python	3.11	运行时环境
PyTorch	2.5	深度学习框架
funasr	最新版	阿里语音识别 SDK
modelscope	最新版	ModelScope 模型加载库
gradio	4.0+	可视化界面框架
ffmpeg	系统级	音频解码支持

注意：需确保宿主机安装 NVIDIA 显卡驱动并启用 CUDA 支持，以激活 GPU 推理加速。

3.2 启动 WebUI 服务

若容器未自动启动服务，可通过以下步骤手动部署：

# 安装必要依赖（通常已在镜像中预装） pip install av gradio

创建主程序文件app_sensevoice.py：

import gradio as gr from funasr import AutoModel from funasr.utils.postprocess_utils import rich_transcription_postprocess import os # 初始化模型 model_id = "iic/SenseVoiceSmall" model = AutoModel( model=model_id, trust_remote_code=True, vad_model="fsmn-vad", vad_kwargs={"max_single_segment_time": 30000}, device="cuda:0", # 使用 GPU 加速 ) def sensevoice_process(audio_path, language): if audio_path is None: return "请上传音频文件" res = model.generate( input=audio_path, cache={}, language=language, use_itn=True, batch_size_s=60, merge_vad=True, merge_length_s=15, ) if len(res) > 0: raw_text = res[0]["text"] clean_text = rich_transcription_postprocess(raw_text) return clean_text else: return "识别失败" # 构建 Gradio 界面 with gr.Blocks(title="SenseVoice 智能语音识别") as demo: gr.Markdown("# 🎙️ SenseVoice 智能语音识别控制台") gr.Markdown(""" **功能特色：** - 🚀 **多语言支持**：中、英、日、韩、粤语自动识别。 - 🎭 **情感识别**：自动检测音频中的开心、愤怒、悲伤等情绪。 - 🎸 **声音事件**：自动标注 BGM、掌声、笑声、哭声等。 """) with gr.Row(): with gr.Column(): audio_input = gr.Audio(type="filepath", label="上传音频或录音") lang_dropdown = gr.Dropdown( choices=["auto", "zh", "en", "yue", "ja", "ko"], value="auto", label="语言选择" ) submit_btn = gr.Button("开始 AI 识别", variant="primary") with gr.Column(): text_output = gr.Textbox(label="识别结果", lines=15) submit_btn.click( fn=sensevoice_process, inputs=[audio_input, lang_dropdown], outputs=text_output ) # 启动服务 demo.launch(server_name="0.0.0.0", server_port=6006)

保存后执行：

python app_sensevoice.py

服务将监听0.0.0.0:6006，等待外部访问。

3.3 本地安全访问方式

由于服务器通常位于内网或受防火墙保护，建议通过 SSH 隧道实现本地浏览器访问：

ssh -L 6006:127.0.0.1:6006 -p [SSH端口] root@[服务器IP]

连接成功后，在本地浏览器打开：

👉 http://127.0.0.1:6006

即可进入可视化操作界面，上传庭审录音并查看带情感与事件标注的识别结果。

4. 实际应用效果与优化建议

4.1 庭审场景典型输出示例

输入一段法庭辩论录音，系统返回如下内容：

【中文｜情绪：愤怒】我认为对方律师的陈述完全偏离事实！【事件：APPLAUSE】这种误导性发言不应被允许！

【中文｜情绪：平静】根据《民法典》第584条，损害赔偿应以实际损失为基础计算。

【中文｜情绪：悲伤】我的孩子至今未能回家……【事件：CRY】

此类输出极大增强了笔录的还原度，便于事后回溯当事人心理状态及旁听群众反应。

4.2 工程落地中的关键问题与对策

问题	解决方案
长音频内存溢出	设置`batch_size_s=60`分段处理；启用 VAD（语音活动检测）切分静音段
小语种识别不准	手动指定`language='yue'`等参数，避免 auto 模式误判
情感标签不稳定	对连续片段做平滑处理，结合上下文窗口判断整体情绪倾向
多人交叉发言混淆	结合说话人分离（Speaker Diarization）模块前置处理