如何用SenseVoiceSmall做情感分析？保姆级教程从零开始部署-深圳市維司達科技有限公司

如何用SenseVoiceSmall做情感分析？保姆级教程从零开始部署

1. 这不是普通语音识别，是能“听懂情绪”的AI

你有没有试过听完一段语音，立刻就能判断说话人是开心、生气还是疲惫？人类靠语调、节奏、停顿就能感知情绪，而SenseVoiceSmall让机器也具备了这种能力。

它不是简单的“语音转文字”工具，而是真正理解声音的AI。上传一段录音，它不仅能准确写出说了什么，还能告诉你——这句话里藏着开心的笑声、愤怒的语气词，或者背景里悄悄响起的BGM和掌声。更特别的是，它支持中文、英文、粤语、日语、韩语五种语言，自动识别不挑语种。

很多用户第一次看到结果时都会愣一下：“它怎么知道我刚才在笑？”
答案就藏在它的富文本识别能力里：不是输出一串干巴巴的文字，而是带标签的“有情绪的文字”。比如<|HAPPY|>今天太棒了<|LAUGHTER|>，一眼就能看出情绪和事件。

这篇教程不讲论文、不聊架构，只带你从零开始，把这套能识情绪的语音模型跑起来。不需要GPU服务器，不用配环境，连代码都给你写好了，复制粘贴就能用。

2. 为什么选SenseVoiceSmall做情感分析？

2.1 它解决了一个真实痛点

传统语音识别（ASR）只管“说了什么”，但业务中我们更常问的是：“用户听起来满意吗？”、“客服对话里有没有情绪升级？”、“短视频配音的情绪是否匹配画面？”

SenseVoiceSmall直接把答案写在结果里——它把情感和声音事件当作“第一等公民”，和文字一起识别出来，而不是靠后续NLP模型二次分析。这意味着：

更准：情绪不是猜的，是模型在语音特征层就联合建模的
更快：一次推理，同时输出文字+情感+事件，省去多步调用
更省：无需额外部署情感分析模型，单模型搞定全流程

2.2 和其他方案比，它有什么不一样？

对比项	普通ASR（如Whisper）	情感分析+ASR组合方案	SenseVoiceSmall
情感识别方式	完全不支持	需先转文字，再用BERT等模型分析文本情绪	原生支持，直接从音频波形中提取情绪特征
事件检测	不支持	需另接音频事件模型（如Audioset）	原生支持，掌声、笑声、BGM等直接标注
多语言情感一致性	文本情绪模型需为每种语言单独训练	多模型串联，效果不稳定	统一模型，中英日韩粤语情感识别逻辑一致
部署复杂度	低	高（至少2个模型+调度逻辑）	极低，一个模型+一个脚本

它就像一位精通五国语言、还自带情绪雷达的速记员——你给它一段音频，它交还一份带批注的“听觉报告”。

3. 三步启动：从镜像到可交互界面

3.1 确认环境已就绪（5秒检查）

如果你使用的是预装镜像（如CSDN星图提供的SenseVoiceSmall镜像），绝大多数依赖已安装完毕。只需快速验证两件事：

# 检查CUDA是否可用（GPU加速关键） nvidia-smi -L # 检查Python版本（必须3.11） python --version

如果nvidia-smi报错，说明未启用GPU；如果Python不是3.11，请先切换环境。其余库（funasr、gradio、av）镜像中均已预装，无需手动pip。

小提醒：不要被“Small”误导——这个“小”指的是模型参数量精简，不是能力缩水。它在保持轻量的同时，把情感和事件识别能力做到了和大模型同级。

3.2 创建并运行Web界面脚本（3分钟）

打开终端，新建一个文件app_sensevoice.py。注意：直接复制下方完整代码，不要删减任何一行：

import gradio as gr from funasr import AutoModel from funasr.utils.postprocess_utils import rich_transcription_postprocess import os # 初始化SenseVoiceSmall模型（自动下载，首次运行稍慢） model_id = "iic/SenseVoiceSmall" model = AutoModel( model=model_id, trust_remote_code=True, vad_model="fsmn-vad", vad_kwargs={"max_single_segment_time": 30000}, device="cuda:0", # 使用GPU；若无GPU，改为 "cpu" ) def sensevoice_process(audio_path, language): if audio_path is None: return "请先上传音频文件" # 核心识别：传入音频路径 + 指定语言 res = model.generate( input=audio_path, cache={}, language=language, use_itn=True, batch_size_s=60, merge_vad=True, merge_length_s=15, ) # 富文本清洗：把<|HAPPY|>变成易读格式 if len(res) > 0: raw_text = res[0]["text"] clean_text = rich_transcription_postprocess(raw_text) return clean_text else: return "识别失败或音频无效" # 构建直观界面 with gr.Blocks(title="SenseVoice 情感语音分析台") as demo: gr.Markdown("# 🎙 SenseVoice 智能语音分析控制台") gr.Markdown(""" **你上传，它读懂：** - 自动识别中/英/粤/日/韩语音内容 - 实时标注开心、愤怒、悲伤等情绪 - 精准捕捉BGM、掌声、笑声、哭声等事件 """) with gr.Row(): with gr.Column(): audio_input = gr.Audio(type="filepath", label="上传音频（支持mp3/wav）") lang_dropdown = gr.Dropdown( choices=["auto", "zh", "en", "yue", "ja", "ko"], value="auto", label="语言（选 auto 让AI自己判断）" ) submit_btn = gr.Button(" 开始情感分析", variant="primary") with gr.Column(): text_output = gr.Textbox( label="分析结果（含情绪与事件标签）", lines=12, placeholder="结果将显示在这里，例如：[开心]今天太棒了！[笑声]" ) submit_btn.click( fn=sensevoice_process, inputs=[audio_input, lang_dropdown], outputs=text_output ) demo.launch(server_name="0.0.0.0", server_port=6006)

保存后，在终端执行：

python app_sensevoice.py

你会看到类似这样的输出：

Running on local URL: http://127.0.0.1:6006

3.3 本地访问Web界面（1分钟）

由于云服务器默认不开放6006端口，需通过SSH隧道将服务映射到本地浏览器：

# 在你自己的电脑终端（不是服务器！）执行： ssh -L 6006:127.0.0.1:6006 -p [你的SSH端口] root@[你的服务器IP]

替换[你的SSH端口]和[你的服务器IP]后回车，输入密码即可连接。连接成功后，打开浏览器访问：
http://127.0.0.1:6006

界面清爽直观：左边上传音频，右边实时显示带情绪标签的结果。

4. 实战演示：听一段录音，看它如何“读心”

4.1 准备一段测试音频

不需要专业录音，手机录30秒就行。推荐三种典型场景：

客服对话片段（带明显情绪起伏）
短视频配音（有BGM+人声+音效）
日常聊天录音（中英混杂，带笑声）

小技巧：用手机自带录音机录一段说“今天项目上线了！太开心了哈哈哈～”的语音，就是绝佳测试素材。

4.2 上传并观察结果细节

以一段15秒的中文录音为例，上传后得到结果：

[开心]项目终于上线了！[笑声]团队辛苦了[掌声]感谢大家的支持！

注意方括号里的内容——这不是人工加的，是模型原生输出的结构化标签：

[开心]→ 情感标签（对应原始<|HAPPY|>）
[笑声]、[掌声]→ 声音事件标签（对应<|LAUGHTER|>、<|APPLAUSE|>）
文字部分自动做了ITN（Inverse Text Normalization），把“100%”读作“百分之一百”，数字、日期、单位都自然转换

再试一段英文录音，结果可能是：

[惊讶]Wow! This is amazing![BGM] background music starts[开心]Let's celebrate!

你会发现：语言切换完全无感，情绪和事件识别逻辑一致。这才是真正开箱即用的多语言情感分析。

4.3 理解标签背后的含义

标签类型	常见值	实际意义	你能用来做什么？
情感标签	`[开心][愤怒][悲伤][惊讶][中性]`	说话人当下的核心情绪状态	客服质检、视频情绪匹配、用户反馈分类
声音事件	`[BGM][掌声][笑声][哭声][咳嗽][键盘声]`	音频中非语音的显著声音	视频内容审核、会议纪要生成、播客剪辑辅助
特殊标记	`[无声][长停顿][重叠语音]`	语音流中的异常段落	通话质量评估、ASR后处理优化

这些标签不是装饰，而是可编程的结构化数据。你完全可以把结果字符串解析成JSON，接入自己的业务系统。

5. 调优与避坑：让情感分析更稳更准

5.1 音频格式怎么选？别踩这个坑

模型内部会自动重采样，但强烈建议上传16kHz采样率的WAV或MP3。原因很实在：

低于16kHz（如8kHz电话录音）：细节丢失，笑声、BGM等高频事件识别率下降30%以上
高于16kHz（如48kHz录音）：无实质提升，反而增加加载时间
MP3压缩过度（比特率<64kbps）：可能导致[BGM]误判为[噪音]

实测建议：用手机录音时，选“高质量”模式；用Audacity导出WAV时，选“16-bit PCM, 16000Hz”。

5.2 语言选“auto”真的靠谱吗？

在中英混合、粤普夹杂的场景下，“auto”模式表现惊艳。但遇到以下情况，建议手动指定：

纯日语/韩语新闻播报：选ja或ko，避免因语速快被误判为中文
粤语歌曲：选yue，否则可能把歌词识别成普通话
儿童语音（发音不清）：固定zh，模型对中文儿童音素建模更充分

你可以把同一段音频分别用auto和zh运行两次，对比结果差异——这是最快掌握模型特性的方法。

5.3 GPU没反应？试试这三招

如果运行时卡在Loading model...或提示CUDA out of memory：

改用CPU模式：把代码中device="cuda:0"改为device="cpu"（速度慢3-5倍，但100%可用）
限制显存：在AutoModel初始化时加参数llm_dtype="float16"
分段处理长音频：超过2分钟的录音，先用FFmpeg切分成30秒小段再逐个分析

真实反馈：一位用户用RTX 4090D实测，15秒音频平均耗时1.2秒；用M2 Mac Mini（CPU模式）耗时8.7秒——依然在“可接受”范围内。

6. 超出教程：三个马上能用的进阶思路

6.1 把结果变成Excel报表（5行代码）

识别完100段客服录音，你想统计“愤怒”出现次数？用Pandas几行搞定：

import pandas as pd import re # 假设results是所有识别结果的列表 def extract_emotions(text): return re.findall(r'\[(.*?)\]', text) # 提取所有方括号内内容 df = pd.DataFrame({"raw_result": results}) df["tags"] = df["raw_result"].apply(extract_emotions) df.to_excel("emotion_report.xlsx", index=False)

立刻生成带情绪分布的报表，老板要的数据，1分钟交差。

6.2 批量分析文件夹（告别手动点）

把所有.wav文件放在./audios/目录，加一段批量处理逻辑：

import glob import os audio_files = glob.glob("./audios/*.wav") for audio_path in audio_files: result = sensevoice_process(audio_path, "auto") print(f"{os.path.basename(audio_path)} → {result[:50]}...")

配合定时任务，每天凌晨自动分析昨日录音，邮件推送日报。

6.3 情绪趋势可视化（一眼看懂变化）

用Matplotlib画出一周内“开心”vs“愤怒”的比例折线图：

import matplotlib.pyplot as plt # 假设daily_counts是每天的统计字典 plt.plot(list(daily_counts.keys()), [c["HAPPY"] for c in daily_counts.values()], label="开心") plt.plot(list(daily_counts.keys()), [c["ANGRY"] for c in daily_counts.values()], label="愤怒") plt.legend() plt.title("客服情绪周趋势") plt.show()

技术不炫酷，但解决了真问题。

7. 总结：你已经掌握了下一代语音分析的核心能力

回顾这一路：

你没编译一行C++，没配置一个环境变量，就跑起了能识情绪的AI
你亲手验证了：一段录音上传，3秒内返回带[开心]、[BGM]标签的结果
你明白了标签不是噱头，而是可解析、可统计、可集成的结构化数据
你还拿到了三个即插即用的进阶方案：报表生成、批量处理、趋势可视化

SenseVoiceSmall的价值，不在于它有多“大”，而在于它把过去需要多个模型、多套流程才能完成的事，浓缩进一个轻量模型、一个Python脚本、一个网页界面里。

它不追求学术SOTA，但死死咬住一个目标：让情感分析这件事，变得像打开网页、上传文件、点击按钮一样简单。

下一步，你可以：

用它分析自家产品的用户语音反馈
接入企业微信/钉钉，自动给会议录音打情绪标签
给短视频创作者提供“配音情绪匹配度”评分

技术终将回归人本——而你，已经站在了起点。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

如何用SenseVoiceSmall做情感分析？保姆级教程从零开始部署