如何清洗原始标签？SenseVoiceSmall postprocess函数使用详解-深圳市維司達科技有限公司

如何清洗原始标签？SenseVoiceSmall postprocess函数使用详解

1. 引言：多语言语音理解的新范式

随着人工智能在语音领域的深入发展，传统的“语音转文字”已无法满足复杂场景下的需求。用户不仅希望知道说了什么，还关心怎么说的、说话人的情绪状态以及背景环境信息。阿里巴巴达摩院推出的SenseVoiceSmall模型正是为解决这一问题而生。

该模型基于富文本转录（Rich Transcription）理念设计，不仅能高精度识别中文、英文、粤语、日语和韩语，还能同步检测音频中的情感状态（如开心、愤怒、悲伤）与声音事件（如BGM、掌声、笑声）。然而，其输出结果中包含大量带有<|TAG|>格式的原始标签，直接展示给终端用户会显得晦涩难懂。因此，如何有效清洗这些标签，将其转化为自然可读的文本，成为落地应用的关键一步。

本文将深入解析rich_transcription_postprocess函数的工作机制，并结合完整代码示例，帮助开发者掌握从原始识别结果到友好文本输出的全流程处理方法。

2. SenseVoiceSmall 输出结构解析

2.1 原始输出格式特点

当调用model.generate()方法后，SenseVoiceSmall 返回的结果是一个字典列表，其中每个元素对应一段语音片段。核心字段为"text"，其内容如下所示：

<|zh|><|HAPPY|>今天天气真好啊！<|LAUGHTER|>哈哈哈<|BGM:轻音乐|>

上述字符串包含了多个维度的信息：

语言标识：<|zh|>表示后续内容为中文
情感标签：<|HAPPY|>表示说话者情绪为“开心”
声音事件：<|LAUGHTER|>和<|BGM:轻音乐|>分别表示笑声和背景音乐类型

这种标记方式虽然结构清晰，但若直接呈现给用户，会造成阅读障碍。因此需要通过后处理函数进行标准化清洗。

2.2 后处理目标定义

理想的目标是将原始标签转换为更自然、流畅且保留语义信息的文本，例如：

[中文][开心] 今天天气真好啊！[笑声] 哈哈哈 [背景音乐：轻音乐]

或根据业务需求进一步简化为纯文本描述：

（开心地说）今天天气真好啊！（笑了起来）哈哈哈 （背景播放着轻音乐）

这正是rich_transcription_postprocess所要完成的任务。

3. rich_transcription_postprocess 函数详解

3.1 功能定位与调用方式

rich_transcription_postprocess是 FunASR 库提供的专用后处理工具，位于funasr.utils.postprocess_utils模块中。它的主要职责是对 SenseVoice 系列模型输出的富文本进行规范化清洗。

from funasr.utils.postprocess_utils import rich_transcription_postprocess raw_text = res[0]["text"] clean_text = rich_transcription_postprocess(raw_text)

该函数接受一个字符串输入（即原始识别文本），返回经过清洗后的可读文本。

3.2 内部处理逻辑拆解

该函数执行以下关键步骤：

步骤一：标签提取与分类

使用正则表达式匹配所有<|...|>形式的标签，并按类型分类：

语言标签：<|zh|>,<|en|>,<|yue|>等
情感标签：<|HAPPY|>,<|SAD|>,<|ANGRY|>等
声音事件标签：<|LAUGHTER|>,<|APPLAUSE|>,<|CRY|>,<|BGM:xxx|>等

步骤二：标签映射与替换

将机器可读的标签映射为人类友好的描述文本。例如：

原始标签	映射结果
`<	HAPPY
`<	LAUGHTER
`<	BGM:pop

步骤三：上下文整合与格式化

将标签插入到对应的文本位置，确保语义连贯。对于跨段落的标签（如持续背景音乐），会做合并处理以避免重复标注。

步骤四：标点修复与归一化

自动补全缺失的标点符号，统一引号、括号等字符编码，提升整体可读性。

3.3 可配置参数说明

尽管默认行为已能满足大多数场景，rich_transcription_postprocess还支持部分参数定制：

clean_text = rich_transcription_postprocess( raw_text, text_itn=True, # 是否启用文本逆标准化（数字转文字） merge_vad=True, # 是否合并相邻语音段 remove_pre_silence=True # 是否去除前导静音标记 )

text_itn=True：将“123”转换为“一百二十三”，适用于中文播报类场景。
merge_vad=True：若多个短句间无明显停顿，合并成一句输出，减少碎片化。
remove_pre_silence：清除开头的<|sil_XXX|>静音标记。

4. 实践案例：构建带后处理的语音识别服务

4.1 完整 WebUI 脚本实现

以下是一个完整的 Gradio 应用脚本，集成了模型加载、语音识别与后处理功能：

# app_sensevoice.py import gradio as gr from funasr import AutoModel from funasr.utils.postprocess_utils import rich_transcription_postprocess import os # 初始化模型 model_id = "iic/SenseVoiceSmall" model = AutoModel( model=model_id, trust_remote_code=True, vad_model="fsmn-vad", vad_kwargs={"max_single_segment_time": 30000}, device="cuda:0", # 使用GPU加速 ) def sensevoice_process(audio_path, language): if audio_path is None: return "请先上传音频文件" # 调用模型生成原始结果 res = model.generate( input=audio_path, cache={}, language=language, use_itn=True, batch_size_s=60, merge_vad=True, merge_length_s=15, ) # 后处理：清洗原始标签 if len(res) > 0: raw_text = res[0]["text"] clean_text = rich_transcription_postprocess(raw_text) return clean_text else: return "识别失败" # 构建界面 with gr.Blocks(title="SenseVoice 多语言语音识别") as demo: gr.Markdown("# 🎙️ SenseVoice 智能语音识别控制台") gr.Markdown(""" **功能特色：** - 🚀 **多语言支持**：中、英、日、韩、粤语自动识别。 - 🎭 **情感识别**：自动检测音频中的开心、愤怒、悲伤等情绪。 - 🎸 **声音事件**：自动标注 BGM、掌声、笑声、哭声等。 """) with gr.Row(): with gr.Column(): audio_input = gr.Audio(type="filepath", label="上传音频或直接录音") lang_dropdown = gr.Dropdown( choices=["auto", "zh", "en", "yue", "ja", "ko"], value="auto", label="语言选择 (auto 为自动识别)" ) submit_btn = gr.Button("开始 AI 识别", variant="primary") with gr.Column(): text_output = gr.Textbox(label="识别结果 (含情感与事件标签)", lines=15) submit_btn.click( fn=sensevoice_process, inputs=[audio_input, lang_dropdown], outputs=text_output ) # 启动服务 demo.launch(server_name="0.0.0.0", server_port=6006)

4.2 运行环境准备

确保安装必要的依赖库：

pip install funasr modelscope gradio av torch==2.5.0

同时系统需预装ffmpeg用于音频解码：

# Ubuntu/Debian sudo apt-get install ffmpeg # macOS brew install ffmpeg

4.3 启动与访问

运行服务脚本：

python app_sensevoice.py

由于远程服务器通常限制端口暴露，建议通过 SSH 隧道本地访问：

ssh -L 6006:127.0.0.1:6006 -p [SSH_PORT] root@[SERVER_IP]

随后在浏览器打开：http://127.0.0.1:6006

5. 常见问题与优化建议

5.1 音频格式兼容性

SenseVoiceSmall 推荐输入16kHz 采样率的单声道音频。虽然模型内部可通过av或ffmpeg自动重采样，但高质量输入有助于提升识别准确率。

推荐预处理流程：

ffmpeg -i input.wav -ar 16000 -ac 1 -c:a pcm_s16le output.wav

5.2 后处理结果定制化

若默认的标签映射不符合产品风格，可自行封装一层后处理函数：

def custom_postprocess(raw_text): # 先调用原生清洗 base_text = rich_transcription_postprocess(raw_text) # 自定义替换规则 replacements = { "[开心]": "(微笑着)", "[愤怒]": "(生气地)", "[笑声]": "(笑出声)", "[背景音乐]": "" } for old, new in replacements.items(): base_text = base_text.replace(old, new) return base_text.strip()

5.3 性能优化建议

批处理设置：合理设置batch_size_s参数（建议 30~60 秒），平衡延迟与吞吐量。
GPU 加速：确保device="cuda:0"生效，利用显卡显著提升推理速度。
缓存机制：对长音频启用cache={}参数，避免重复计算。

6. 总结

本文系统讲解了如何利用rich_transcription_postprocess函数清洗 SenseVoiceSmall 模型输出的原始标签，实现了从机器标记到人类可读文本的转化。我们分析了其内部处理逻辑，展示了完整的 WebUI 集成方案，并提供了实用的部署与优化建议。

通过合理使用该后处理函数，开发者可以轻松构建具备情感感知能力的智能语音交互系统，广泛应用于客服质检、视频字幕生成、心理评估辅助等高级场景。未来还可结合 LLM 对清洗后的文本做进一步摘要或意图分析，打造端到端的语音理解 pipeline。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

如何清洗原始标签？SenseVoiceSmall postprocess函数使用详解