从0开始学语音识别：Fun-ASR WebUI零基础实战教程-深圳市維司達科技有限公司

从0开始学语音识别：Fun-ASR WebUI零基础实战教程

你是不是也遇到过这些情况？
开会录音堆成山，却没人愿意花三小时逐字整理；
客户访谈音频发来十几条，光听一遍就头大；
想把播客内容转成文字做笔记，结果试了三个在线工具，不是要注册会员就是识别错得离谱……

别折腾了。今天这篇教程，不讲模型原理、不聊训练细节，就带你用Fun-ASR WebUI——一个真正“打开就能用”的本地语音识别系统，从零开始，15分钟内完成第一次准确转写。

它不是云服务，不用联网上传隐私音频；
它不依赖编程经验，点点鼠标就能跑起来；
它由钉钉与通义联合推出，科哥亲手打磨，专为中文场景优化；
更重要的是：你不需要懂ASR、不需要配环境、甚至不需要知道CUDA是什么。

这篇文章，就是为你写的。
全程手把手，每一步都截图级说明，连“找不到启动脚本在哪”这种问题都提前帮你想到。

1. 第一步：让Fun-ASR WebUI在你电脑上跑起来

别被“WebUI”“ASR”这些词吓住——它本质上就是一个带图形界面的程序，就像你安装微信或WPS一样简单。整个过程分三步：下载、启动、访问。

1.1 下载镜像（30秒搞定）

你不需要自己编译代码、不用配置Python环境、更不用手动下载几个G的大模型。我们直接使用预装好的镜像版本：

访问 CSDN星图镜像广场，搜索“Fun-ASR钉钉联合通义推出的语音识别大模型语音识别系统构建by科哥”
点击“一键部署”，选择适合你设备的运行环境（Windows/Mac/Linux）
镜像会自动下载并解压到本地文件夹，比如~/funasr-webui/或D:\funasr-webui\

小贴士：如果你用的是Mac M系列芯片或Windows带独立显卡（RTX 3060及以上），启动后默认启用GPU加速，识别快一倍不止；没有独显也完全没问题，CPU模式一样能用，只是稍慢一点。

1.2 启动应用（两行命令，无脑复制）

打开终端（Mac/Linux）或命令提示符（Windows），进入镜像所在目录：

cd ~/funasr-webui # Mac/Linux # 或 cd D:\funasr-webui # Windows

然后执行这行命令（复制粘贴，回车）：

bash start_app.sh

如果提示Permission denied（权限拒绝），请先运行：
chmod +x start_app.sh
这只是告诉系统：“这个脚本允许被执行”，属于常规安全设置，无需担心。

你会看到终端快速滚动几行日志，最后停在类似这样的输出：

Running on local URL: http://127.0.0.1:7860 To create a public link, set `share=True` in `launch()`.

这就成功了！

1.3 打开浏览器，进入界面（关键一步别跳过）

现在，打开你的 Chrome、Edge 或 Firefox 浏览器，在地址栏输入：

http://localhost:7860

或者直接点开终端里显示的http://127.0.0.1:7860链接。

你将看到一个干净、清爽的中文界面——顶部是功能导航栏，中间是“语音识别”主操作区，右侧有语言选择、热词输入框等设置项。

到这里，你已经完成了90%的技术门槛。剩下的，全是“点哪里、填什么、看结果”的操作。

2. 第一次实战：用手机录音转成文字（5分钟全流程）

我们不从“上传MP3”开始，而是选最贴近日常的场景：用手机录一段话，立刻转成文字。这样你能马上感受到效果，建立信心。

2.1 录一段真实语音（建议30秒以内）

拿出手机，打开录音机App，说一段话，比如：

“今天下午三点，市场部在3号会议室召开新品发布会，主要介绍Q3上线的AI客服系统，参会人员包括张经理、李总监和王主管。”

录完保存，通过微信文件传输助手、AirDrop或数据线，把这段音频传到你的电脑上。文件名随意，比如meeting-test.m4a。

小贴士：Fun-ASR支持几乎所有常见格式——MP3、M4A、WAV、FLAC，连iPhone录的.m4a都能直接识别，不用转换格式。

2.2 上传+识别（三步到位）

回到浏览器中的 Fun-ASR WebUI 页面：

点击“上传音频文件”按钮（页面中央偏左，图标是文件夹+向上箭头）
在弹出窗口中，找到你刚传来的meeting-test.m4a，选中并确认
点击右下角的“开始识别”按钮（蓝色，醒目）

等待3–8秒（取决于音频长度和你的设备），识别结果就会出现在下方两个文本框里：

识别结果：原始输出，比如"今天下午三点市场部在三号会议室召开新品发布会..."
规整后文本：开启ITN后的结果，比如"今天下午3点，市场部在3号会议室召开新品发布会..."

你会发现：数字自动转成了阿拉伯数字，时间表达更符合书面习惯，标点也补上了——这就是ITN（文本规整）的功劳，它默认开启，你完全不用操心。

2.3 试试“麦克风直录”（零延迟体验）

不想传文件？Fun-ASR还支持边说边转。点击界面上方的“实时流式识别”标签页，你会看到一个大大的麦克风图标。

点击它，浏览器会请求麦克风权限 → 点“允许”
对着电脑说话（比如再念一遍刚才那段话）
说完后点“停止录音”，再点“开始实时识别”

虽然它不是真正的流式（底层靠VAD分段识别模拟），但响应足够快，基本能做到“你说完，文字就出来”，非常适合即兴口述、快速记要点。

3. 让识别更准：三个小白也能用的提效技巧

Fun-ASR本身精度已经很高，但如果你处理的是专业场景——比如公司内部会议、技术分享、客服对话——加点小设置，准确率还能再上一层楼。这三个技巧，零学习成本，立竿见影。

3.1 加热词：专有名词不再“读错”

你有没有遇到过：

把“钉钉”识别成“丁丁”
把“Fun-ASR”识别成“饭阿斯尔”
把“科哥”识别成“哥哥”

这是因为模型没见过这些词，按发音猜的。解决方法超简单：把它们写进“热词列表”。

在“语音识别”页面，找到“热词列表”文本框（默认在参数区域第三行），每行填一个词：

钉钉 Fun-ASR 科哥 AI客服系统 Q3

然后照常上传音频、点击识别。你会发现，这些词几乎100%准确了。

原理很简单：热词不是“强制替换”，而是给模型一个“优先选项”。它相当于悄悄告诉模型：“如果听到类似发音，优先考虑这几个词。”

3.2 换语言：中英混说也不怕

Fun-ASR支持中文、英文、日文三种目标语言，但更厉害的是——它能自动适应混合语境。

比如你录了一段话：

“这个功能叫‘Smart Reply’，中文意思是智能回复，下周上线。”

即使你选的是“中文”模式，它也能正确识别出Smart Reply并保留原样，不会强行翻译成“斯玛特瑞派”。

如果你明确知道音频是纯英文（比如听TED演讲），就把“目标语言”改成“英文”，识别会更专注；不确定时，保持默认“中文”即可，兼容性最强。

3.3 开ITN：让口语变书面语（强烈推荐开启）

ITN（Inverse Text Normalization）是Fun-ASR最实用的功能之一。它能把“一千二百三十四”变成“1234”，把“二零二五年”变成“2025年”，把“百分之五十”变成“50%”。

它不只是改数字，还会处理：

日期：“三月五号” → “3月5日”
时间：“下午四点半” → “16:30”
度量单位：“十公里” → “10公里”
货币：“五块钱” → “5元”

而且它默认开启，你什么都不用做。如果某次你想保留原始口语风格（比如做方言研究），再取消勾选就行。

4. 解放双手：批量处理100个音频，只要点一下

一个人处理1个音频是体验，处理10个是任务，处理100个就是折磨。Fun-ASR的“批量处理”功能，就是专治这种重复劳动。

4.1 一次上传多个文件（拖拽最省事）

切换到“批量处理”标签页，你会看到和“语音识别”几乎一样的界面，只是上传区变成了“支持多选”。

方法一：点击“上传音频文件”，按住Ctrl（Windows）或Cmd（Mac），多选多个音频
方法二（推荐）：直接把一堆音频文件拖进上传区域——松手即上传，连窗口都不用点开

支持同时上传20个、50个，甚至100个（建议单批不超过50个，保证稳定）。

4.2 统一设置，一键启动

上传完成后，设置一次参数，所有文件共用：

目标语言：选“中文”（或根据实际统一设定）
启用ITN：打钩（让所有结果都规整）
热词列表：填上你这批音频里的高频专有名词（比如“季度财报”“用户增长曲线”）

然后点击“开始批量处理”。

你会看到右侧实时刷新进度条：
已完成 12 / 50
正在处理：interview_037.mp3
⏱ 预估剩余：2分18秒

处理完，所有结果自动列出，每行一个文件，带识别文本摘要。你可以：

点击任意一行，展开查看完整结果
点击“导出CSV”，生成带文件名、时间戳、原文、规整文的表格，直接导入Excel分析
点击“下载JSON”，供程序员后续调用或集成

真实案例：一位HR同事用它处理52场校招面试录音，从上传到拿到完整CSV只用了11分钟，过去人工听写要两天。

5. 查得快、管得住：识别历史与VAD检测

识别完不是终点，怎么查、怎么管、怎么复用，才是日常效率的关键。

5.1 识别历史：你的专属语音知识库

每次识别，Fun-ASR都会自动存档，形成“识别历史”。它不只是记录，而是一个可搜索、可管理的知识库。

默认显示最近100条，按时间倒序排列
在搜索框输入关键词（比如“发布会”“Q3”），立刻过滤出相关记录
点击某条记录的ID，能看到：原始音频路径、完整识别文本、ITN规整文、所用热词、识别时间、语言设置

更实用的是：

输入ID，点“删除选中记录”，精准清理某次误操作
点“清空所有记录”，一键归零（不可恢复，请慎用）

所有数据存在本地webui/data/history.db文件里，你可以定期备份，甚至用SQLite工具直接打开分析。

5.2 VAD检测：长音频的“智能剪刀”

你有一段2小时的会议录音，但真正说话的可能只有30分钟，其余全是翻页声、咳嗽、静音。手动剪辑太费劲？VAD（语音活动检测）就是你的自动剪刀。

切换到“VAD检测”标签页：

上传那个2小时的音频
设置“最大单段时长”为30000（30秒，默认值，够用）
点击“开始VAD检测”

几秒钟后，它会告诉你：

共检测到47个语音片段
片段1：00:02:15 – 00:03:42（时长87秒）
片段2：00:04:05 – 00:05:21（时长96秒）
……

你还可以勾选“识别文本”，它会直接对每个片段做ASR，等于一步完成“切分+转写”。

场景举例：老师录了整堂课视频，用VAD自动切出所有学生发言片段，再批量识别，快速生成课堂互动分析报告。

6. 稳定运行不掉链子：三个常见问题当场解决

再好用的工具，遇到问题也会卡壳。下面这三个问题，90%的新手都会遇到，我们把解决方案压缩成一句话动作，照做就行。

6.1 问题：识别半天没反应，页面卡住？

→立刻按键盘Esc键（取消当前操作），然后点右上角“系统设置” → 点“清理GPU缓存” → 再重试。
（这是显存临时占满的典型表现，清理后秒恢复）

6.2 问题：麦克风点了没反应，或者识别全是乱码？

→换Chrome或Edge浏览器，然后在地址栏左侧点锁形图标 → 点“网站设置” → 找到“麦克风”，设为“允许”。
（Safari和Firefox对本地麦克风支持不稳定，这是已知限制）

6.3 问题：上传大文件（>200MB）失败，提示“请求超时”？

→不要传大文件！Fun-ASR不是为超长音频设计的。
正确做法：用免费工具（如Audacity、QuickTime）先把2小时录音切成30分钟一段，再批量上传。
进阶做法：先用VAD检测找出有效语音段，只上传这些片段。

7. 总结：你已经掌握的，远不止“语音识别”

回看一下，你刚刚完成了什么：

在自己电脑上，15分钟内跑起了企业级语音识别系统
用手机录音，5分钟得到规整、准确的文字稿
加几行热词，让专业术语识别率飙升
一次上传50个文件，自动生成Excel-ready的CSV
把2小时录音自动切片、转写、归档，形成可检索的知识库

这不是“学会了一个工具”，而是你亲手搭建了一条从语音到信息的自动化流水线。未来，你可以：

把它部署在公司服务器上，让整个团队共享（参考文末链接，有详细远程部署指南）
结合Notion或飞书，用API自动同步识别结果
用VAD+批量处理，为每场客户会议生成结构化纪要

语音识别，从来不该是工程师的专利。它应该是每个需要处理声音的人，随手可取的笔和纸。

你现在拥有的，正是那支最趁手的笔。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

从0开始学语音识别：Fun-ASR WebUI零基础实战教程