语音日记分析工具：个人情绪变化追踪系统部署教程-深圳市維司達科技有限公司

语音日记分析工具：个人情绪变化追踪系统部署教程

你是否想过，每天录下的几段语音日记，不仅能记录事件，还能帮你发现自己的情绪波动？通过 AI 技术，我们可以让这些声音“说话”——不只是转成文字，更能识别出你当时是开心、低落，还是带着一丝疲惫。本文将带你从零开始，部署一套基于阿里开源 SenseVoiceSmall 模型的语音日记情绪分析系统，实现对个人情绪变化的长期追踪。

这不仅是一个语音转写工具，更是一套可落地的个人心理状态监测方案。无论你是想做自我觉察、心理咨询辅助，还是开发健康类应用，这套系统都能提供扎实的技术基础。整个过程无需深度学习背景，有手就能搭。

1. 为什么选择 SenseVoiceSmall 做情绪追踪？

市面上大多数语音识别模型只做一件事：把声音变成文字。但要分析情绪，光靠文字远远不够。而SenseVoiceSmall是少数真正支持“富文本识别”的开源模型之一，它来自阿里巴巴达摩院（iic），天生就为理解“声音背后的情绪”而生。

1.1 多语言 + 高精度 + 轻量级三合一

这个模型最吸引人的地方在于它的平衡性：

支持中文、英文、粤语、日语、韩语，适合多语种混合场景
在保持高识别准确率的同时，模型体积小，推理速度快
可在消费级显卡（如 RTX 3060/4090）上流畅运行，适合本地私有化部署

这意味着你可以用一台普通台式机或笔记本，长期运行自己的“情绪分析服务器”，数据完全掌握在自己手中。

1.2 不只是转写，还能“听懂”情绪和环境

传统 ASR（自动语音识别）输出的是干巴巴的文字。而 SenseVoiceSmall 的输出是带有标签的富文本（Rich Transcription），比如：

今天项目终于上线了 <|HAPPY|>，团队还一起庆祝 <|APPLAUSE|><|LAUGHTER|>

它能自动标注：

🎭情感状态：<|HAPPY|>、<|SAD|>、<|ANGRY|>等
🎵声音事件：<|BGM|>（背景音乐）、<|CRY|>（哭声）、<|LAUGHTER|>等

这些标签就是我们构建“情绪变化曲线”的关键信号源。

1.3 自带 WebUI，小白也能快速上手

镜像已集成 Gradio 可视化界面，启动后即可通过浏览器上传音频、查看带情绪标记的识别结果，无需写前端代码。这对于只想专注功能验证和个人使用的用户来说，省去了大量开发成本。

2. 系统部署全流程

接下来我们一步步搭建这套语音日记分析系统。整个过程分为三个阶段：环境准备、服务部署、本地访问。

2.1 确认运行环境

本系统依赖以下核心组件：

组件	版本要求	说明
Python	3.11	推荐使用 conda 或 venv 创建独立环境
PyTorch	2.5+	需支持 CUDA 加速
funasr	最新版本	阿里官方语音处理库
modelscope	最新版本	模型下载与加载框架
gradio	>=4.0	提供 Web 交互界面
ffmpeg	已安装	音频格式解码支持

如果你使用的是预置 AI 镜像（如 CSDN 星图镜像），通常这些依赖已经配置好，可直接跳到下一步。

2.2 编写并启动 Web 服务脚本

我们需要创建一个app_sensevoice.py文件，封装模型调用逻辑和网页界面。

创建主程序文件

vim app_sensevoice.py

粘贴以下完整代码：

import gradio as gr from funasr import AutoModel from funasr.utils.postprocess_utils import rich_transcription_postprocess import os # 初始化 SenseVoiceSmall 模型 model_id = "iic/SenseVoiceSmall" model = AutoModel( model=model_id, trust_remote_code=True, vad_model="fsmn-vad", vad_kwargs={"max_single_segment_time": 30000}, device="cuda:0", # 使用 GPU 加速，若无 GPU 改为 "cpu" ) def sensevoice_process(audio_path, language): if audio_path is None: return "请先上传音频文件" res = model.generate( input=audio_path, cache={}, language=language, use_itn=True, batch_size_s=60, merge_vad=True, merge_length_s=15, ) if len(res) > 0: raw_text = res[0]["text"] clean_text = rich_transcription_postprocess(raw_text) return clean_text else: return "识别失败" # 构建网页界面 with gr.Blocks(title="SenseVoice 多语言语音识别") as demo: gr.Markdown("# 🎙️ SenseVoice 智能语音识别控制台") gr.Markdown(""" **功能特色：** - 🚀 **多语言支持**：中、英、日、韩、粤语自动识别。 - 🎭 **情感识别**：自动检测音频中的开心、愤怒、悲伤等情绪。 - 🎸 **声音事件**：自动标注 BGM、掌声、笑声、哭声等。 """) with gr.Row(): with gr.Column(): audio_input = gr.Audio(type="filepath", label="上传音频或直接录音") lang_dropdown = gr.Dropdown( choices=["auto", "zh", "en", "yue", "ja", "ko"], value="auto", label="语言选择 (auto 为自动识别)" ) submit_btn = gr.Button("开始 AI 识别", variant="primary") with gr.Column(): text_output = gr.Textbox(label="识别结果 (含情感与事件标签)", lines=15) submit_btn.click( fn=sensevoice_process, inputs=[audio_input, lang_dropdown], outputs=text_output ) # 启动服务 demo.launch(server_name="0.0.0.0", server_port=6006)

安装必要依赖（如未预装）

pip install av gradio

运行服务

python app_sensevoice.py

首次运行时会自动从 ModelScope 下载模型权重，约 2GB 左右，下载完成后即可使用。

3. 如何在本地电脑访问 Web 界面？

由于服务器通常位于远程云主机上，且出于安全考虑不开放公网端口，我们需要通过 SSH 隧道将服务映射到本地。

3.1 建立 SSH 端口转发

打开你本地电脑的终端（Mac/Linux）或 PowerShell（Windows），执行以下命令：

ssh -L 6006:127.0.0.1:6006 -p [你的SSH端口] root@[你的服务器IP]

例如：

ssh -L 6006:127.0.0.1:6006 -p 22 root@47.98.123.45

输入密码后连接成功，此时你的本地 6006 端口已与服务器打通。

3.2 浏览器访问 WebUI

保持终端连接不断开，在浏览器中访问：

👉 http://127.0.0.1:6006

你会看到如下界面：

一个音频上传区域
语言选择下拉框
“开始 AI 识别”按钮
结果展示区

上传一段语音（建议使用 16kHz 采样率的 wav 或 mp3 格式），点击识别，几秒内就能看到带情绪标签的转写结果。

4. 实战演示：用语音日记分析一周情绪变化

现在我们来做一个真实案例：假设你连续七天录了一段 1–2 分钟的语音日记，内容是当天的心情总结。我们将每段音频输入系统，提取其中的情感标签，并绘制简单的情绪趋势图。

4.1 示例输出分析

一段典型的识别结果可能如下：

最近压力有点大 <|SAD|>，不过昨天和朋友吃饭 <|HAPPY|><|LAUGHTER|>，感觉好多了。希望下周能顺利 <|NEUTRAL|>

我们可以从中提取出：

主要情绪：SAD → HAPPY → NEUTRAL
正向事件：聚会、笑声
时间线索：结合录音时间戳可判断情绪转变节点

4.2 情绪数据结构化建议

为了便于长期追踪，建议将每次识别结果保存为 JSON 格式：

{ "date": "2025-04-05", "duration": 98, "text": "今天加班到很晚...", "emotions": ["SAD", "TIRED"], "events": ["BGM"], "language": "zh" }

后续可通过脚本定期汇总，生成周报或可视化图表。

4.3 可扩展方向

✅自动化批处理：写个脚本遍历diary/*.wav文件夹，批量识别并导出 CSV
✅情绪强度评分：根据 HAPPY 出现频率、持续时间等设计简单打分机制
✅关键词关联分析：结合 NLP 工具，分析“工作”“家人”“健康”等话题出现时的情绪倾向
✅提醒功能：当连续多日检测到 SAD 或 ANGRY 时，发送邮件提醒自我调节或寻求帮助

5. 使用技巧与常见问题解答

5.1 提升识别效果的小技巧

音频质量优先：尽量使用清晰录音，避免背景噪音过大
采样率匹配：推荐使用 16kHz 单声道音频，模型对此优化最好
合理分段：单次录音建议不超过 5 分钟，过长可能导致内存不足
语言指定更准：如果知道录音语言，手动选择比 auto 更稳定

5.2 常见问题及解决方法

问题	原因	解决方案
页面打不开	未建立 SSH 隧道	确保本地执行了`ssh -L`命令
识别卡住不动	显存不足	尝试改用 CPU 模式：`device="cpu"`
中文标点混乱	未启用 ITN	确保`use_itn=True`
情感标签缺失	音频太短或太平淡	尝试更富表现力的录音
模型下载失败	网络问题	检查是否能访问 huggingface.co 或 modelscope.cn

5.3 如何判断情绪识别是否可靠？

虽然 SenseVoiceSmall 的情感识别能力在同类开源模型中属领先水平，但它并非医学级诊断工具。建议这样看待它的输出：

🔹趋势参考：更适合观察“整体情绪走向”，而非某一句的精确判断
🔹辅助工具：应结合上下文理解，不能孤立看待某个<|HAPPY|>标签
🔹个性化校准：可尝试录制不同状态下的样本（如兴奋、疲惫、生气），观察模型反应是否符合预期

6. 总结

通过本文的部署实践，你现在拥有一套完整的个人语音情绪追踪系统。它不仅能将你的语音日记转成带情感标记的文字，还能成为你了解自己内心变化的一面镜子。

这套系统的价值不仅在于技术本身，更在于它把原本属于大厂的“感知智能”能力，带到了普通人触手可及的地方。你可以用它：

记录心理成长轨迹
辅助心理咨询对话准备
开发健康管理类产品原型
探索人机情感交互的新方式

更重要的是，所有数据都运行在你自己的设备上，隐私安全有保障。

未来，你还可以进一步拓展功能：接入日历自动归档、对接笔记软件同步内容、甚至训练个性化情绪模型。AI 不该只是冷冰冰的工具，它可以是有温度的伙伴。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

语音日记分析工具：个人情绪变化追踪系统部署教程