钉钉内部推广：作为集团自研技术优先落地-深圳市維司達科技有限公司

Fun-ASR：钉钉自研语音识别系统的工程实践与落地思考

在企业数字化转型的浪潮中，会议记录、培训回放、客服录音等场景每天都在产生海量音频数据。如何高效、安全地将这些声音转化为可用信息，已成为组织提升协作效率的关键命题。过去，我们依赖第三方云服务完成语音转文字任务，但随之而来的隐私泄露风险、网络延迟和定制化能力不足等问题，始终是悬在头顶的一把剑。

阿里集团选择了一条不同的路——基于通义千问大模型能力，联合钉钉团队推出自研语音识别系统Fun-ASR，并以 WebUI 形式实现本地化部署。这不仅是一次技术选型的转变，更体现了对“AI 基础设施自主可控”的战略坚持。尤其在金融、政务、医疗等高合规要求领域，这种从源头掌控模型与数据流的设计思路，正变得愈发重要。

从模型到产品：Fun-ASR 的核心架构解析

Fun-ASR 并非简单的开源项目封装，而是由钉钉与通义实验室深度协同打造的专用语音识别系统，其底层模型Fun-ASR-Nano-2512针对中文语音进行了专项优化，在保证精度的同时兼顾推理效率，使其能够在边缘设备或普通服务器上稳定运行。

整个识别流程可以拆解为七个关键环节：

音频输入：支持文件上传（WAV/MP3）和麦克风实时采集；
前端预处理：统一采样率至16kHz，进行降噪与归一化处理；
特征提取：生成梅尔频谱图作为声学模型输入；
声学建模：采用 Transformer 架构预测音素序列；
语言融合：结合内置语言模型进行解码，提升上下文连贯性；
文本规整（ITN）：将“二零二五年”自动转换为“2025年”，“一千二百三十四”变为“1234”；
结果输出：返回原始文本与规范化后的最终结果。

整个链路在 GPU 加速下可达到接近实时的速度（约 1x RTF），意味着一段 10 分钟的音频，理论上可在 10 分钟内完成处理。对于中小企业和个人开发者而言，这套轻量化设计显著降低了使用门槛。

相比传统云 ASR 服务，Fun-ASR 在多个维度展现出明显优势：

对比维度	传统云ASR服务	Fun-ASR（本地部署）
数据安全性	中低（数据上传云端）	高（全程本地处理）
网络依赖	必须联网	支持完全离线
定制化能力	有限（API接口固定）	高（可调参、加热词、换模型）
成本	按调用量计费	一次性部署，长期免费
延迟	受网络影响较大	局域网内极低延迟

特别是在涉及敏感信息的内部会议或高管访谈中，数据不出内网的特性让管理者真正安心。

实时识别怎么做？VAD + 分段推理的巧妙折中

严格意义上的“流式识别”需要模型具备增量推理能力——即边接收音频帧边输出部分文字。然而当前版本的 Fun-ASR 模型尚未原生支持 streaming inference。但这并不意味着无法实现近似体验。

通过VAD（Voice Activity Detection）驱动的分段识别机制，系统实现了类流式效果。具体来说：

浏览器端利用 Web Audio API 捕获麦克风流；
VAD 模块实时检测语音活动，当确认有说话时启动录音；
每次截取 2~5 秒的有效语音片段；
将短片段送入模型独立识别；
后端按时间顺序拼接各段结果，形成连续文本输出。

这种方式虽然牺牲了跨片段的语义连贯性（比如“北京”被切在两个片段中可能识别为“北”“京”），但在大多数日常对话场景中，用户几乎感知不到断点。更重要的是，它极大简化了工程复杂度，避免了复杂的流式解码逻辑和状态同步问题。

实际开发中，这一流程可通过如下 Python 代码快速集成：

import torch from funasr import AutoModel # 初始化模型（假设已下载本地） model = AutoModel(model="funasr-nano-2512", device='cuda:0') def stream_transcribe(audio_chunk): """ 对一个音频片段进行快速识别 :param audio_chunk: numpy array, shape=(T,), dtype=float32 :return: str, 识别文本 """ result = model.generate(input=audio_chunk) return result[0]["text"]

前端则需配合 JavaScript 使用MediaRecorder或WebRTC获取音频流，并通过 WebSocket 或轮询方式推送至后端处理。尽管这不是真正的流式方案，但对于资源受限环境而言，是一种务实且高效的权衡。

⚠️ 注意事项：该功能目前标记为“实验性”。建议在对实时性要求极高或长句连续表达较多的场景中谨慎使用，必要时可结合后处理模块进行语义补全。

批量处理：企业级语音资产管理的核心能力

如果说实时识别解决的是“即时反馈”问题，那么批量处理则是面向“规模化管理”的刚需。想象一下会后整理几十场会议录音的场景——逐个上传、等待、保存，重复操作令人崩溃。

Fun-ASR WebUI 提供了完整的批量处理机制：

支持拖拽上传多个文件（推荐每批不超过50个）；
统一配置参数（语言、热词、ITN开关）应用于所有任务；
异步队列处理，前端显示进度条与当前文件名；
失败任务自动跳过并记录日志，不影响整体流程；
全部完成后一键导出 CSV 或 JSON 格式报告。

这项功能的背后是一套精心设计的任务调度策略。由于模型通常运行在前端进程中（如 Gradio 应用），关闭浏览器会导致任务中断。因此，在生产环境中建议将其部署为后台服务：

#!/bin/bash # 启动脚本 start_app.sh python app.py \ --host 0.0.0.0 \ --port 7860 \ --device cuda:0 \ --batch_size 1 \ --model_path ./models/funasr-nano-2512

关键参数说明：
---device cuda:0：优先启用 NVIDIA GPU 加速；
---batch_size 1：因输入长度不一且显存有限，暂不支持批处理；
---model_path：指定本地模型路径，确保离线可用。

通过 systemd 或 Docker 守护进程运行此脚本，即可实现 7×24 小时不间断服务能力。

VAD 技术不只是“切静音”这么简单

很多人认为 VAD 只是用来去掉开头结尾的空白，其实它的价值远不止于此。在 Fun-ASR 中，VAD 是连接效率与质量的桥梁。

系统采用 FSMN-VAD 模型，结合能量阈值与频谱熵分析，精准识别语音区间。典型应用场景包括：

长音频智能切分：将 1 小时讲座自动分割为若干语义段，分别识别后再合并，避免单次输入过长导致 OOM；
去除非语音干扰：过滤咳嗽、翻页、键盘敲击等噪声，减少误识别；
触发式识别：仅在检测到语音时才启动 ASR 模型，节省计算资源。

以下代码展示了如何调用 VAD 模块提取语音片段：

from funasr import AutoModel vad_model = AutoModel(model="fsmn-vad", device='cuda:0') def detect_speech_segments(audio_file): """检测音频中的语音片段""" res = vad_model.generate(input=audio_file) return [ {"start": seg["start"], "end": seg["end"], "duration": seg["end"] - seg["start"]} for seg in res[0]['value'] ]

返回的时间戳可用于后续的分段识别或内容剪辑。在实际测试中，引入 VAD 预处理可使整体识别准确率提升约 8%~12%，尤其是在背景嘈杂或存在长时间停顿的录音中效果显著。

如何让 Fun-ASR 跑得更快更稳？

再好的模型也需要合适的土壤才能发挥全部潜力。Fun-ASR WebUI 提供了灵活的系统设置选项，帮助用户根据硬件条件调优性能。

计算设备选择策略

设备类型	推荐平台	性能表现	使用建议
CUDA (GPU)	NVIDIA 显卡	实时识别（1x RTF）	优先选用，适合高频使用
CPU	所有平台	约0.5x RTF	无GPU时备用方案
MPS	Apple Silicon Mac	接近GPU性能	需安装支持Metal的PyTorch版本

Mac 用户特别注意：务必使用torch>=2.0并启用 MPS 后端，否则默认回落到 CPU 模式，性能差异可达 3 倍以上。

内存与缓存管理

由于 ASR 模型加载后常驻内存，长时间运行可能出现显存占用过高问题。系统提供了两个实用工具：

清理GPU缓存：调用torch.cuda.empty_cache()释放未使用显存；
卸载模型：从内存中移除模型实例，便于切换任务或释放资源。

当遇到 “CUDA out of memory” 错误时，应先尝试点击“清理缓存”按钮；若仍无效，则需重启服务或降低并发数。

多用户共享环境建议部署在专用服务器，并限制同时处理任务数量，防止资源争抢导致超时或崩溃。

落地实战：一场会议录音是如何被转化的？

让我们以最常见的“会议录音转写”为例，走一遍完整的使用流程：

用户打开 WebUI 页面，将.wav文件拖入上传区；
设置目标语言为“中文”，开启 ITN 功能，并添加“钉钉”、“通义”、“达摩院”等人名/产品热词；
点击“开始识别”，请求发送至后端；
系统加载模型（若未加载）、执行 VAD 切分、逐段推理、文本规整；
数秒后返回完整文本，数字、日期格式已自动标准化；
结果存入本地 SQLite 数据库，可在“历史记录”中查看与导出。

整个过程无需联网，所有数据保留在本地磁盘。数据库路径位于webui/data/history.db，建议定期备份以防丢失。

这种闭环设计不仅满足了企业安全审计的要求，也为后续功能扩展打下基础。例如，未来可轻松接入会议纪要生成、发言人分离、关键词提取等功能，构建完整的语音智能工作流。

工程之外的思考：为什么要做自研 ASR？

Fun-ASR 的出现，表面上是一个工具替代，实则是阿里集团在 AI 时代基础设施布局的一次深思熟虑。

它解决了几个根本性问题：

数据主权：语音是最具个人属性的数据之一，本地化部署让用户重新掌握控制权；
成本结构：云服务按调用量收费，长期使用成本高昂；而自研模型一次部署，边际成本趋近于零；
业务适配：通用模型难以理解行业术语，而通过热词注入和微调机制，Fun-ASR 可持续进化为企业专属的“耳朵”。

当然，这条路也有挑战。比如模型迭代速度、多语种覆盖广度、端到端延迟优化等，仍需持续投入。但从长远看，掌握核心技术栈的企业将在智能化竞争中占据主动。

对于开发者而言，Fun-ASR WebUI 不仅是一个开箱即用的解决方案，更是一个可学习、可扩展的技术样板。无论是用于个人笔记整理、教学内容转录，还是作为企业语音资产管理系统的基础组件，它都展现出了强大的适应性和实用性。

随着模型持续迭代和生态逐步完善，我们有理由相信，这类高度集成、安全可控的本地化 AI 工具，将成为智能办公的新标配。而 Fun-ASR 的探索，正是这条路上的重要一步。

钉钉内部推广：作为集团自研技术优先落地

Fun-ASR：钉钉自研语音识别系统的工程实践与落地思考

从模型到产品：Fun-ASR 的核心架构解析

实时识别怎么做？VAD + 分段推理的巧妙折中

批量处理：企业级语音资产管理的核心能力

VAD 技术不只是“切静音”这么简单

如何让 Fun-ASR 跑得更快更稳？

计算设备选择策略

内存与缓存管理

落地实战：一场会议录音是如何被转化的？

工程之外的思考：为什么要做自研 ASR？

面向初学者的vivado2025通信系统入门必看指南

Google Docs协作翻译：推动Fun-ASR国际化进程

领英国际视野：向海外同行介绍中国ASR创新成果

起点中文网小说植入：未来世界里的AI语音特工

今日头条自媒体运营：AI语音技术热点追踪

EndNote引用格式：正确标注Fun-ASR模型出处