news 2026/6/24 8:39:01

OpenAI Whisper内网无网络环境运行 | 开源Whisper本地化部署运行 | 语音识别ASR本地化

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
OpenAI Whisper内网无网络环境运行 | 开源Whisper本地化部署运行 | 语音识别ASR本地化

1. Whisper介绍

Whisper是一个由OpenAI公司开源的ASR项目,在github中有超多的star,国内也有很多公司在使用这个Whisper。我们使用Python或者C++或者Java都可以轻松使用这个Whisper作为语音转写服务。这里使用Python开发,并且使用pyinstaller封装为Windows可执行程序,直接下载下面的压缩包后,直接双击app.exe或者app就可以运行,极大方便了小白用户的使用,不需要懂代码,不用输入命令,直接通过鼠标操作。该软件只适配Windows 7, Windows 10和Windows 11,对于想要在MacOS或者Linux中运行的用户来说,需要源码安装。如果想要在Linux服务器中运行,并且封装为一个类似阿里云智能语音交互中的ASR录音文件识别接口,可以联系博主lukeewin01。
Whisper支持在CPU或GPU中运行,GPU只支持英伟达GPU,也就是使用英伟达的CUDA进行推理。并且支持多种模型,多种语言,包括但不限于普通话,粤语,英语,葡萄牙语,西班牙语,俄语,意大利语,法语,德语,日语,韩语,印度尼西亚语,缅甸语,老挝语,越南语,阿拉伯语等一共100种语言。其中国内只支持粤语和普通话,对于其它的方言,需要使用一定量的方言数据训练才能支持。
下载地址::

通过网盘分享的文件:第二版Whisper可执行程序 链接: https://pan.baidu.com/s/1yXk5lYt248Mao972X17etA 提取码: bmgd

2. 模型介绍

Whisper开源了多个模型,有tiny, tiny.en, base, base.en, small, small.en , medium, medium.en, large-v1, large-v2, large-v3, large-v3-turbo等模型,这些模型参数依次增大,准确率也依次提升,但是对电脑的要求也逐渐提升。我这里推荐大家使用large-v3-turbo模型,这个是基于large-v3这个模型优化过的,转写的速度更快了,占用的资源更低了,但是准确率级别和large-v3一样。跑这个模型如果使用CUDA来推理,至少需要8GB显存的显卡,如果跑large-v3则至少需要12GB的显存。如果你没有英伟达显卡,或者说显存小于8GB显存,那么就推荐你使用small模型,如果是英语的音视频,那么就推荐使用small.en模型。
这说明一下,有.en结尾的模型就是专门给英语用的模型,其它语言的音视频就不要选择.en结尾的模型。当然英语也可以选择非.en结尾的模型,比如英语也可以选择使用large-v3模型。
如果你选择了small模型,那么至少需要4GB的显存的显卡。如果你使用CPU,那么可以把后面的CPU线程数拉到最大。

3. Whisper优缺点

Whisper不是完美的,每个项目每个模型都有自己的优缺点,我们应该要扬长避短。Whisper的优势是多语种的支持,一个模型就可以支持上百种语言,这是目前其它开源模型中难以做到的。Whisper也是最近几年来的ASR新鼻祖了,开创了全新的ASR实现思路,并且也是目前来说训练数据量最大的模型了,使用了68万小时的数据集训练的。Whisper还有一个优势就是一个模型就可以搞定语音转写和标点符号添加,以及语种识别,还可以做翻译,直接翻译为英文输出。这是其它开源项目做不到的,当然,Whisper开源之后,有很多模仿者,二次开发的项目,比如WhisperX,faster whisper, whisper.cpp, whisper-jar等,这些项目我都在本地或者服务器运行过,每个项目都有其特点,比如faster whisper主要是速度快,whisper.cpp主要是依赖简单,直接可以集成到C++的项目中,不依赖于torch,而WhisperX就集成了Pyannote实现了区分说话人,和时间戳对齐。如果你想要部署这些项目,也可以访问我下面的博客首页来联系我。

https://blog.lukeewin.top

更多内容记得关注我。
如需看视频效果演示效果,可以访问下面的视频链接。

https://www.bilibili.com/video/BV1jcjL61EPF/
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/24 8:36:14

ATmega164P/324P/644P ADC配置与低功耗设计实战指南

1. 项目概述:深入ATmega164P/324P/644P的ADC与功耗世界 在嵌入式开发领域,尤其是对电池供电或低功耗有严苛要求的项目中,微控制器的模数转换器性能和整体功耗表现,往往是决定项目成败的关键。最近在调试一个基于太阳能供电的户外环…

作者头像 李华
网站建设 2026/6/24 8:35:37

基于ATA6870-DK11的12串锂电池主动均衡BMS开发实战指南

1. 项目缘起:为什么是ATA6870-DK11与主动均衡?最近在做一个12串锂电池组的储能项目,客户对电池包的一致性、循环寿命和能量利用率提出了非常高的要求。市面上常见的被动均衡方案,虽然成本低,但本质是把高电芯的电量通过…

作者头像 李华
网站建设 2026/6/24 8:25:45

网络安全架构设计

网络安全架构设计:构建数字世界的铜墙铁壁 在数字化浪潮席卷全球的今天,网络安全已成为企业、政府乃至个人不可忽视的核心议题。随着网络攻击手段的日益复杂化,传统的安全防护措施已难以应对新型威胁。网络安全架构设计作为系统性防御的基石…

作者头像 李华
网站建设 2026/6/24 8:24:13

软件模块化中的内聚与耦合平衡

软件模块化中的内聚与耦合平衡 在软件开发中,模块化设计是提升代码可维护性和可扩展性的核心手段。模块化并非简单地将代码拆分为多个部分,而是需要在模块的内聚性与耦合性之间找到平衡。内聚性衡量模块内部功能的紧密程度,耦合性则反映模块…

作者头像 李华
网站建设 2026/6/24 8:15:20

最新mpay码支付系统源码+监听app完美可用改版

本套源码是mpay支付免费开源的但是它自带的pc监控软件已失效,手机监控app也不好用,导致很多新手小白都无法使用码支付。 但是经过我对源码的改动,再配合我用的wepay安卓监控app软件即可完美实现个人收款! 老鹰保证百分百可用的,放心使用&…

作者头像 李华