news 2026/4/23 13:57:29

语音转字幕实战(字幕提取)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
语音转字幕实战(字幕提取)

下载

https://github.com/agermanidis/autosub

它是基于Google Web Speech API实现的,需要翻墙请求外部接口

通过python安装项目,会下载对应的autosub到环境变量

pip install git+https://github.com/agermanidis/autosub.git

输入以下命令有返回则代表安装成功:

autosub -h

让本地http请求走代理端口(这里演示我本地的mac环境,其他环境差不多,要启动一个翻墙服务,一般都是暴露1090端口)

vim ~/.zshrc

alias setproxy="export ALL_PROXY=http://127.0.0.1:1090"

alias unsetproxy="unset ALL_PROXY"

让环境变量生效

souce ~/.zshrc

setproxy

最后执行转字幕命令

autosub -S zh-CN -D zh-CN test.mp4 (之前发现卡住了,parse过程很慢,后面联想到请求googel接口问题,需要翻墙)

最后执行成功了,生成的效果还可以

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/20 11:08:22

Qwen3-VL-8B与OCR结合实现精准图文理解

Qwen3-VL-8B与OCR结合实现精准图文理解 你有没有遇到过这种场景:客户甩来一张密密麻麻的表格截图,问“上个月销售额是多少?”——你盯着屏幕反复比对,生怕看错一行数字;或者运营同事发来一张促销海报图,让你…

作者头像 李华
网站建设 2026/4/23 13:32:28

GitHub Pages搭建个人博客展示TensorFlow项目成果

GitHub Pages搭建个人博客展示TensorFlow项目成果 在人工智能项目日益复杂的今天,如何向团队、面试官或开源社区清晰地传达你的技术实践过程和成果,已经成为每位AI工程师必须面对的课题。传统的PDF报告或静态PPT往往难以承载模型训练曲线、代码逻辑与可…

作者头像 李华
网站建设 2026/4/23 13:31:53

TikTok算法下的流量密码:如何让带货内容与直播被更多人看见

TTSOP跨境互联 一站式提供TikTok账号 静态住宅IP,专为带货直播打造爆量通道。在TikTok这个日活数十亿的短视频宇宙中,每一条内容都像一颗投入信息海洋的石子,能否激起涟漪,关键在于是否掌握了与平台“对话”的语言——算法。对于…

作者头像 李华
网站建设 2026/4/19 0:22:21

清华源镜像对比其他国内站点下载速度实测

清华源镜像对比其他国内站点下载速度实测 在AI工程化落地日益深入的今天,一个看似不起眼却直接影响开发效率的问题浮出水面:为什么别人装个TensorRT只要几十秒,而你等了十几分钟还失败? 答案往往不在于你的代码写得怎么样&#…

作者头像 李华
网站建设 2026/4/23 9:50:22

GPT-SoVITS语音合成全流程指南

GPT-SoVITS语音合成全流程指南 在AI技术不断“拟人化”的今天,声音的边界正在被重新定义。你是否想过,只需一分钟录音,就能让AI用你的声音朗读任意文本?这不是科幻电影的情节,而是 GPT-SoVITS 正在实现的现实。 这个开…

作者头像 李华