AI字幕组来了｜FRCRN语音降噪+Whisper实现端到端字幕生成-深圳市維司達科技有限公司

AI字幕组来了｜FRCRN语音降噪+Whisper实现端到端字幕生成

你有没有遇到过这样的情况：看到一段精彩的外语视频，想把它翻译成中文分享给朋友，但手动听写、翻译、对时间轴的过程太耗时？或者你是个内容创作者，希望为自己的视频快速配上双语字幕，却苦于流程繁琐、依赖多个在线服务？

今天，我们要聊的是一套完全离线、一键生成中英双语字幕的技术方案。它不需要联网调用API，不依赖付费接口，普通人也能轻松上手——一个人，就是一支字幕组。

这套方案的核心是三个开源模型的协同工作：

FRCRN语音降噪：从嘈杂音频中提取清晰人声
Whisper语音转写：将人声自动转为文字
大模型翻译：本地完成中英文互译

整个流程无需联网，数据安全可控，且支持批量处理。接下来，我们就一步步带你走通这条“AI字幕流水线”。

1. 为什么需要离线字幕生成？

1.1 在线方案的痛点

目前市面上大多数双语字幕生成工具都依赖云端服务，比如：

使用Google Translate或DeepL进行翻译
调用Azure Speech或阿里云ASR做语音识别
借助剪映、Premiere等软件内置功能

这些方式虽然方便，但也存在明显问题：

隐私风险：上传的音视频可能包含敏感信息
网络依赖：断网就无法使用
成本高：高频使用需支付API费用
延迟大：每次请求都要等待响应

而我们的目标是：在本地GPU服务器上，一键运行，自动生成高质量双语字幕文件（SRT格式）。

1.2 技术选型思路

要实现这个目标，必须满足以下条件：

模型可本地部署
推理速度快
中文支持好
易于集成和自动化

基于这些要求，我们选择了阿里通义实验室开源的FRCRN语音降噪模型和CSANMT翻译模型，配合性能优越的faster-whisper作为语音识别核心。

这套组合不仅效果出色，而且全部支持ModelScope平台一键下载与部署，非常适合工程化落地。

2. FRCRN语音降噪：让声音更干净

2.1 什么是FRCRN？

FRCRN全称是 Frequency Recurrent Convolutional Recurrent Network，是一种专为单通道麦克风设计的语音增强模型。它的主要任务是从带噪声的录音中分离出清晰的人声。

相比传统方法（如谱减法），FRCRN基于深度学习，在频率维度引入循环结构，能更好地捕捉长距离频谱相关性，从而在去噪的同时保留更多语音细节。

官方模型地址：
https://modelscope.cn/models/iic/speech_frcrn_ans_cirm_16k/summary

2.2 部署与使用步骤

该镜像已预装环境，只需简单几步即可运行：

# 1. 部署镜像（建议使用4090D单卡） # 2. 进入Jupyter Notebook # 3. 激活环境 conda activate speech_frcrn_ans_cirm_16k # 4. 切换目录 cd /root # 5. 执行推理脚本 python 1键推理.py

脚本会自动读取当前目录下的input.wav文件，并输出降噪后的output.wav。

2.3 实际效果对比

你可以尝试用一段带有背景音乐或环境噪音的视频音频测试。处理前后最直观的感受是：

背景音乐明显减弱
说话人声音更加突出
即使在低信噪比环境下，语音依然可辨

这对于后续的语音识别至关重要——干净的声音 = 更高的识别准确率。

提示：如果原始视频是MP4格式，可用ffmpeg先提取音频：
ffmpeg -i video.mp4 -vn -acodec pcm_s16le -ar 16000 -ac 1 audio.wav
注意采样率需为16kHz，单声道，这是FRCRN模型的要求。

3. Whisper语音转写：把声音变成文字

3.1 为什么选择faster-whisper？

Whisper是OpenAI推出的多语言语音识别模型，支持近百种语言的自动识别。但我们这里选用的是其优化版本 ——faster-whisper，原因如下：

对比项	openai/whisper	faster-whisper
推理速度	一般	提升4倍以上
内存占用	高	更低
支持量化	否	是（int8, float16）
GPU/CPU兼容性	差	好

项目地址：https://github.com/guillaumekln/faster-whisper

安装命令：

pip install faster-whisper

3.2 编写转写脚本

我们将降噪后的声音输入Whisper模型，生成标准SRT字幕文件。以下是核心代码片段：

from faster_whisper import WhisperModel import math def convert_seconds_to_hms(seconds): hours, remainder = divmod(seconds, 3600) minutes, seconds = divmod(remainder, 60) milliseconds = math.floor((seconds % 1) * 1000) return f"{int(hours):02}:{int(minutes):02}:{int(seconds):02},{milliseconds:03}" def make_srt(file_path, model_name="small"): device = "cuda" if torch.cuda.is_available() else "cpu" if device == "cuda": model = WhisperModel(model_name, device="cuda", compute_type="float16") else: model = WhisperModel(model_name, device="cpu", compute_type="int8") segments, info = model.transcribe(file_path, beam_size=5) print(f"检测语言: {info.language}, 置信度: {info.language_probability:.2f}") with open('./video.srt', 'w', encoding='utf-8') as f: for i, segment in enumerate(segments, 1): start = convert_seconds_to_hms(segment.start) end = convert_seconds_to_hms(segment.end) text = segment.text.strip() f.write(f"{i}\n{start} --> {end}\n{text}\n\n") print(f"[{start} --> {end}] {text}") return "转写完成"

3.3 模型大小选择建议

模型尺寸	适用场景	显存需求	速度
tiny/small	快速测试、资源有限	< 2GB	⚡⚡⚡⚡
base/medium	平衡精度与速度	2~4GB	⚡⚡⚡
large-v2/large-v3	高精度、多语种	> 5GB	⚡⚡

推荐优先使用medium模型，在多数情况下能达到90%以上的识别准确率。

4. 大模型翻译：本地化中英互译

4.1 选用CSANMT模型的原因

很多用户担心本地翻译质量不如DeepL或Google。但其实，阿里通义实验室发布的CSANMT连续语义增强机器翻译模型表现非常亮眼。

模型地址：
https://modelscope.cn/models/iic/nlp_csanmt_translation_en2zh/summary

它的优势在于：

基于大规模预训练，理解上下文能力强
支持领域自适应，通用性好
中文生成自然流畅，少有“机翻感”
可完全离线运行

4.2 翻译脚本实现

我们读取上一步生成的video.srt，逐行提取英文文本并翻译，最后合并成双语字幕：

from modelscope.pipelines import pipeline from modelscope.utils.constant import Tasks import os def make_tran(): # 加载翻译管道 translator = pipeline( task=Tasks.translation, model='damo/nlp_csanmt_translation_en2zh' ) with open("./video.srt", 'r', encoding="utf-8") as f: lines = f.read().split("\n\n") if os.path.exists("./two.srt"): os.remove("./two.srt") with open("./two.srt", "a", encoding="utf-8") as out_file: for block in lines: if not block.strip(): continue parts = block.split("\n") if len(parts) < 3: continue index = parts[0] timecode = parts[1] en_text = parts[2].strip() try: result = translator(input=en_text) zh_text = result["translation"].strip() out_file.write(f"{index}\n{timecode}\n{en_text}\n{zh_text}\n\n") print(f"{en_text} → {zh_text}") except Exception as e: print(f"翻译失败: {str(e)}") out_file.write(f"{index}\n{timecode}\n{en_text}\n[翻译错误]\n\n") return "翻译完成"

4.3 翻译质量实测表现

经过实际测试，该模型在常见口语表达、科技术语、影视对白等方面均有不错表现。例如：

英文原文	翻译结果
I can't believe we made it this far.	我不敢相信我们竟然走到了这一步。
The data shows a clear upward trend.	数据显示出了明显的上升趋势。
Let's break down the problem step by step.	让我们一步一步地分解这个问题。

整体语义连贯，符合中文表达习惯，基本无需人工校对。

5. 字幕合并与最终输出

5.1 如何合并双语字幕？

现在我们已经有了双语SRT文件（每段包含英+中两行），接下来可以将其嵌入原视频，生成带内嵌字幕的MP4文件。

使用FFmpeg一行命令搞定：

import ffmpeg import os def merge_sub(video_path, srt_path): output_path = "./final_video_with_sub.mp4" if os.path.exists(output_path): os.remove(output_path) ( ffmpeg .input(video_path) .output( output_path, vf=f"subtitles={srt_path}:force_style='Fontsize=20,PrimaryColour=&H00FFFFFF'" ) .run(overwrite_output=True) ) return output_path

5.2 字幕样式自定义

通过force_style参数可调整字幕外观，常用参数包括：

Fontsize=24：字体大小
PrimaryColour=&H00FFFFFF：白色字体
OutlineColour=&H00000000：黑色描边
BackColour=&80000000：半透明背景
Bold=1：加粗

你也可以选择不嵌入字幕，而是导出.srt文件供PR、剪映等软件加载。

6. 一键整合：打造你的个人AI字幕组

6.1 自动化流程串联

将上述模块整合为一个完整流程：

def main(): print("【1】开始语音降噪...") os.system("python 1键推理.py") # FRCRN降噪 print("【2】开始语音转写...") make_srt("output.wav", model_name="medium") print("【3】开始翻译...") make_tran() print("【4】合并字幕到视频...") merge_sub("input.mp4", "./two.srt") print(" 全部完成！请查看 final_video_with_sub.mp4")

只需准备input.mp4或input.wav，运行一次脚本，就能得到成品。

6.2 实际应用场景

这套系统特别适合以下人群：

自媒体创作者：快速为外文视频添加双语字幕
教育工作者：制作带字幕的教学资料
科研人员：整理国际会议讲座内容
影视爱好者：自制高清字幕片源

更重要的是，所有操作都在本地完成，不怕数据泄露，也不怕API限流。

7. 总结

我们从零搭建了一套完整的端到端双语字幕生成系统，具备以下特点：

完全离线运行，保护隐私
一键自动化，无需人工干预
高质量语音识别 + 流畅翻译
支持GPU加速，处理效率高
开源可复现，易于二次开发

未来还可以进一步优化：

添加自动标点恢复功能
支持多说话人分离（Diarization）
实现GUI界面，拖拽式操作
批量处理文件夹内所有视频

技术的进步不该只属于大公司，每一个普通人都应该有能力借助AI提升生产力。现在，你只需要一块显卡、一个镜像、一段脚本，就能组建属于自己的“AI字幕组”。

别再手动敲字幕了，让机器替你干活吧！

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

AI字幕组来了｜FRCRN语音降噪+Whisper实现端到端字幕生成