news 2026/4/22 21:33:36

GLM-ASR - 最强中文及方言语音识别利器 语音识别 语音转文字 支持50系显卡 一键整合包下载

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
GLM-ASR - 最强中文及方言语音识别利器 语音识别 语音转文字 支持50系显卡 一键整合包下载

GLM-ASR 是智谱AI开源的一个语音识别模型,虽然体积小,只有1.5B的参数量,但识别速度快、准确率高,在中文和方言识别上表现非常突出,尤其擅长处理低音量、嘈杂环境下的语音,比很多同类模型更稳健。

GLM-ASR 支持 17 种语言,包括日、英、法、德、俄、西等主流语言,甚至连加泰罗尼亚语、立陶宛语这种小语种都支持,在中文和地方方言,比如粤语场景下远超老牌语音识别模型 Whisper。

今天分享的 GLM-ASR 一键包基于 智谱AI 最新开源的 GLM-ASR-Nano-2512 模型打包制作,WebUI包括单次转写和批量转写两个模块,支持音频/视频一键转写, 同时支持生成txt和srt字幕文件,方便二次创作。因视频转写效率不如直接音频转写,故新增视频转音频功能,如果是视频文件,建议先将视频转换为音频,再进行转写操作。

下载地址:点此下载



主要特点

开源且轻量:参数量 1.5B,相比一些超大模型运行速度更快,同时保持高精度。
方言支持强:不仅能识别普通话和英语,还特别优化了粤语等方言,解决了很多语音识别模型在方言上的短板。除标准普通话和英语外,模型针对粤语及其他方言进行了深度优化。对于做港剧字幕组、粤语客服质检的小伙伴来说,有效填补了方言识别领域的空白。
低音量识别能力:专门训练过“轻声/低音量”场景,即使说话很轻也能准确转写。它专门针对 "低语/轻声"场景进行训练,能够捕捉并准确转录传统模型难以识别的极低音量音频。以后开会偷偷录音(误),也不怕听不清了。
高性能:在中文语音识别的常见测试集(如 Wenet Meeting、Aishell-1)上,平均错误率只有 4.10%,优于 OpenAI Whisper V3 等模型。
多语言支持:支持 17 种语言,常见语种的识别错误率都在可用范围内(WER ≤ 20%)。包括日、英、法、德、俄、西等主流语言,甚至连加泰罗尼亚语、立陶宛语这种小语种都支持



应用领域

会议记录:在多人会议、嘈杂环境下依然能准确转写,适合企业会议纪要。
客服与呼叫中心:支持方言和低音量识别,能更好理解不同客户的语音输入。
教育与学习:帮助学生或研究者快速转写课堂、讲座内容。
媒体与字幕:为视频、播客自动生成字幕,尤其适合中文和粤语内容。
智能设备:在语音助手、智能家居中提升识别准确率,尤其在安静或嘈杂场景下。



使用教程:(建议N卡,显存4G起,支持50系显卡)

支持CPU和CUDA两种运行模式,CPU较慢,有条件建议使用CUDA(独立显卡)模式

支持音频、视频转换,支持批量音频转换。上传需要转写的音频/视频文件,点 开始识别 即可。
注意:视频识别不如音频识别准确率高,建议使用音频转写。视频文件可先用WebUI里的视频转音频,转换后音频文件保存在audio_temp目录,再使用转换后的音频转写。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 13:42:47

Qwen3-8B vs 其他8B模型:中英文对话性能对比实测

Qwen3-8B vs 其他8B模型:中英文对话性能对比实测 在当前大语言模型高速演进的背景下,一个现实问题日益凸显:我们真的需要动辄上百亿参数的“巨无霸”模型来完成日常任务吗?对于大多数企业、开发者甚至研究团队而言,算…

作者头像 李华
网站建设 2026/4/23 12:10:17

当论文焦虑遇上AI救星:Paperzz如何用“智能协作”重构毕业季的学术生产力——一位工科生的真实复盘与效率革命

Paperzz-AI官网免费论文查重复率AIGC检测/开题报告/文献综述/论文初稿 paperzz - 毕业论文-AIGC论文检测-AI智能降重-ai智能写作https://www.paperzz.cc/dissertation 前言:在deadline边缘挣扎的我们,其实缺的不是努力,而是“正确打开方式”…

作者头像 李华
网站建设 2026/4/23 12:11:43

收藏必备:大模型应用开发全攻略 - 让人人都能成为AI应用开发者

文章提出了一种大模型应用研发框架,通过多智能体系统(MultiAgent System)降低模型应用研发成本和技术门槛,让非专业人员也能开发大模型应用。该框架覆盖从建模、数据准备、模型调试到部署的全流程,实现了研发效率提升和成本下降,推…

作者头像 李华
网站建设 2026/4/23 13:26:59

文件批量重命名”:高效文件更名工具 —— 支持拖入 选文件,可编序号、插字符、替换内容,一键批量改文件名

在日常办公与资料整理中,文件命名杂乱、编号无序往往会大幅降低工作效率 —— 比如摄影素材、文档资料堆积时,手动逐个重命名不仅耗时,还易出现编号错误。大飞哥批量重命名软件正是为解决这一痛点而生的轻量工具,它以简洁直观的界…

作者头像 李华
网站建设 2026/4/23 12:10:31

Codex与Qwen3-14B对比:中文场景下哪个更适合代码生成?

Codex与Qwen3-14B对比:中文场景下哪个更适合代码生成? 在现代软件开发中,AI辅助编程早已不是未来概念——它正深刻改变着开发者的工作流。从自动补全一行函数,到根据自然语言描述生成完整模块,大模型正在成为“数字结对…

作者头像 李华