语音识别新体验：SenseVoice Small模型实战指南-深圳市維司達科技有限公司

语音识别新体验：SenseVoice Small模型实战指南

1. 引言

1.1 学习目标

本文旨在为开发者和研究人员提供一份完整的SenseVoice Small 模型实战使用指南，帮助您快速掌握该模型的部署、调用与二次开发方法。通过本教程，您将能够：

理解 SenseVoice Small 的核心能力
部署并运行 WebUI 界面进行语音识别
使用 Python API 进行程序化推理
掌握情感与事件标签的解析逻辑
实现自定义场景下的集成应用

1.2 前置知识

建议读者具备以下基础： - Python 编程经验 - 基本的深度学习概念（如张量、推理） - 对语音识别任务有一定了解 - 熟悉命令行操作与 JupyterLab 环境

1.3 教程价值

本指南结合了官方镜像文档与实际工程实践，不仅覆盖标准使用流程，还深入解析模型输入输出机制，并提供可复用的代码模板，适合从入门到进阶的全流程学习。

2. 环境准备与启动

2.1 启动服务

若您已加载包含SenseVoice Small的预置镜像，请按以下步骤启动服务：

/bin/bash /root/run.sh

此脚本会自动拉起 WebUI 服务。若系统支持开机自启，则无需手动执行。

2.2 访问 WebUI

服务启动后，在浏览器中访问：

http://localhost:7860

即可进入图形化操作界面。

提示：如果在远程服务器上运行，请确保端口 7860 已开放或配置好 SSH 隧道转发。

3. WebUI 使用详解

3.1 页面布局说明

界面采用双栏设计，左侧为功能区，右侧为示例音频列表：

┌─────────────────────────────────────────────────────────┐ │ [紫蓝渐变标题] SenseVoice WebUI │ │ webUI二次开发 by 科哥 | 微信：312088415 │ ├─────────────────────────────────────────────────────────┤ │ 📖 使用说明 │ ├──────────────────────┬──────────────────────────────────┤ │ 🎤 上传音频 │ 💡 示例音频 │ │ 🌐 语言选择 │ - zh.mp3 (中文) │ │ ⚙️ 配置选项 │ - en.mp3 (英文) │ │ 🚀 开始识别 │ - ja.mp3 (日语) │ │ 📝 识别结果 │ - ko.mp3 (韩语) │ └──────────────────────┴──────────────────────────────────┘

3.2 上传音频方式

支持两种输入方式：

方式一：文件上传

点击“🎤 上传音频”区域
选择本地音频文件（支持 MP3、WAV、M4A 等格式）
等待上传完成

方式二：麦克风录音

点击右侧麦克风图标
允许浏览器访问麦克风权限
点击红色按钮开始录音，再次点击停止

3.3 语言选择

下拉菜单提供多种语言选项：

选项	含义
auto	自动检测（推荐）
zh	中文
en	英文
yue	粤语
ja	日语
ko	韩语
nospeech	无语音

建议对多语种混合内容使用auto模式以获得最佳识别效果。

3.4 开始识别

点击“🚀 开始识别”按钮，系统将在数秒内返回结果。处理时间与音频长度成正比：

10 秒音频：约 0.5–1 秒
1 分钟音频：约 3–5 秒

性能受 CPU/GPU 资源影响。

3.5 查看识别结果

识别结果展示在“📝 识别结果”文本框中，包含三类信息：

文本内容

原始语音转写的文字。

情感标签（结尾）

表示说话人情绪状态，以表情符号 + 括号标注：

😊 开心 (HAPPY)
😡 生气/激动 (ANGRY)
😔 伤心 (SAD)
😰 恐惧 (FEARFUL)
🤢 厌恶 (DISGUSTED)
😮 惊讶 (SURPRISED)
无表情 = 中性 (NEUTRAL)

事件标签（开头）

标识背景中的非语音事件：

🎼 背景音乐 (BGM)
👏 掌声 (Applause)
😀 笑声 (Laughter)
😭 哭声 (Cry)
🤧 咳嗽/喷嚏 (Cough/Sneeze)
📞 电话铃声
🚗 引擎声
🚶 脚步声
🚪 开门声
🚨 警报声
⌨️ 键盘声
🖱️ 鼠标声

4. 核心功能演示

4.1 示例音频测试

点击右侧示例音频可快速体验不同场景：

示例	语言	特点
zh.mp3	中文	日常对话
yue.mp3	粤语	方言识别
en.mp3	英文	外语朗读
emo_1.wav	auto	情感识别示例
rich_1.wav	auto	综合事件+情感+文本识别

4.2 识别结果示例解析

中文示例

开放时间早上9点至下午5点。😊

文本：开放时间早上9点至下午5点。
情感：😊 开心

英文示例

The tribal chieftain called for the boy and presented him with 50 pieces of gold.

文本：部落首领叫来了男孩，并给了他50块金币。

带事件标签示例

🎼😀欢迎收听本期节目，我是主持人小明。😊

事件：🎼 背景音乐 + 😀 笑声
文本：欢迎收听本期节目，我是主持人小明。
情感：😊 开心

5. 高级配置选项

展开“⚙️ 配置选项”可调整以下参数：

参数	说明	默认值
language	识别语言	auto
use_itn	是否启用逆文本正则化	True
merge_vad	是否合并 VAD 分段	True
batch_size_s	动态批处理时长（秒）	60

注意：一般情况下无需修改，默认设置已优化平衡速度与精度。

6. 编程接口调用（Python）

除了 WebUI，还可通过 Python 脚本直接调用模型进行批量处理或集成到其他系统中。

6.1 安装依赖

pip install modelscope funasr torchaudio

6.2 下载模型

from modelscope import snapshot_download model_dir = snapshot_download('iic/SenseVoiceSmall', cache_dir='../../data/voice/')

模型将缓存至指定目录，后续可离线加载。

6.3 加载模型并推理

from model import SenseVoiceSmall # 加载模型 model_dir = "iic/SenseVoiceSmall" # 或本地路径 m, kwargs = SenseVoiceSmall.from_pretrained(model=model_dir) # 执行推理 res = m.inference( data_in="https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav", language="auto", # 支持: "zh", "en", "yue", "ja", "ko", "nospeech" use_itn=False, # 是否进行数字规范化 **kwargs ) print(res)

输出示例：

[{ "key": "wav_file_tmp_name", "text": "今天天气真好。😊" }]

6.4 参数说明

参数	类型	描述
data_in	str/list	音频路径或 URL 列表
language	str	指定语言或 auto 自动检测
use_itn	bool	是否将“50”转换为“五十”等自然表达
output_dir	str	可选，保存识别结果的目录

7. 提高识别准确率技巧

7.1 音频质量建议

项目	推荐配置
采样率	≥16kHz
格式	WAV > MP3 > M4A（优先无损）
时长	≤30 秒（更短利于实时响应）
环境	安静环境，避免回声与背景噪音

7.2 语言选择策略

单语明确：直接选择对应语言（如zh），提升准确性
混合语言：使用auto更鲁棒
方言/口音重：优先auto，模型内置多语种联合训练能力

7.3 其他优化建议

使用高质量麦克风录制
控制语速适中，避免过快吞音
减少空调、风扇等持续背景噪声
若识别不准，尝试重新上传或剪辑关键片段重试

8. 常见问题解答

Q1: 上传音频后没有反应？

A: 检查音频文件是否损坏，尝试重新上传或转换为 WAV 格式再试。

Q2: 识别结果不准确怎么办？

A:
- 检查音频清晰度与信噪比
- 确认语言选择是否正确
- 尝试切换use_itn参数
- 使用auto模式提高鲁棒性

Q3: 识别速度慢？

A:
- 长音频会增加处理时间
- 检查 GPU/CPU 占用情况
- 在资源受限设备上建议分段处理

Q4: 如何复制识别结果？

A: 点击识别结果框右侧的“复制”按钮即可一键复制全部文本。

9. 总结

SenseVoice Small 是一个集语音识别、语种识别、情感识别与声学事件检测于一体的多功能音频理解模型。其轻量化设计使其适用于边缘设备与实时应用场景。

通过本文介绍的 WebUI 操作与 Python API 调用方式，您可以灵活地将其应用于：

客服对话分析（识别情绪变化）
视频内容打标（自动提取笑声、掌声等事件）
多语种会议记录生成
智能硬件语音交互增强

无论是图形化操作还是编程集成，SenseVoice Small 都提供了简洁高效的解决方案。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。