news 2026/6/10 17:50:39

GLM-TTS - 自然、富有情感和表现力的语音克隆/文本转语音系统 支持批量生成 支持50系显卡 一键整合包下载

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
GLM-TTS - 自然、富有情感和表现力的语音克隆/文本转语音系统 支持批量生成 支持50系显卡 一键整合包下载

GLM-TTS 是智谱AI开源的一个新型的文本转语音(TTS)系统,它能在“零样本”条件下模仿声音,在极少的语音样本模仿声音,生成自然、有情绪的语音,并且让合成语音更有情感和表现力。它的特点是可控、自然、支持实时推理。


GLM-TTS 就像是“情感版的语音生成器”,不仅能把文字变成声音,还能让声音带上情绪和个性。它的应用场景非常广泛,尤其适合需要自然、富有表现力语音的领域。

GLM-TTS 测试下来,相比同类文本转语音系统,除了克隆音色相似度更高外,在情感表达和自然度方便也更好,还有就是长文本生成更稳定,且速度快,生成的音频质量也更高。缺点是对显卡要求高,至少需要8G显存,长文本对显卡要求更高。


今天分享的 GLM-TTS 一键包,基于原版WebUI,新增了音色管理功能,支持自定义保存和加载音色;新增批量生成功能,支持一键上传多个txt文档批量生成语音。批量生成需要更多的显存资源,大家根据自己显卡选择批量生成的数量。

下载地址:点此下载



主要特点

零样本语音克隆:只需 3–10 秒的语音片段,就能快速模仿目标声音。
情感控制:通过多奖励强化学习(GRPO),让语音带有情绪和表现力,而不是平淡机械。
高质量合成:生成的语音在清晰度和自然度上接近商业系统,并且字符错误率(CER)更低。
精细控制:支持“音素 + 文本”混合输入,能精确控制发音,尤其适合多音字。
实时推理:支持流式生成,适合需要即时反馈的场景。
双语支持:针对中英文混合文本进行了优化。



应用领域

虚拟助手与客服机器人:让语音更自然、更有情感,提升用户体验。
有声读物与播客:快速生成不同风格和情绪的朗读,减少人工录音成本。
游戏与虚拟角色:为 NPC 或虚拟角色生成个性化、有情感的声音。
教育与培训:在语言学习或在线课程中提供更生动的语音讲解。
无障碍应用:帮助视障人士获得更自然的语音反馈。



使用教程:(建议N卡,显存8G起,支持50系显卡)


分别下载主程序压缩包和模型(ckpt文件夹),解压主程序,移动ckpt目录到主程序下即可。

上传需要克隆的参考音频,输入参考文本,输入需要生成文字内容,设置相关参数,生成即可。

音色管理:上传需要保存的音色音频和参考文本,输入音色名称,保存。右侧加载音色,选择音色,输入需要生成的文字内容,生成即可。
批量生成:批量上传多个txt文本文档,刷新音色,选择音色,批量生成。生成结果保存在 batch_outputs 目录,可一键下载打包文件。

实测8G显存开启共享显存也能运行,但速度略慢,建议10G起,长文本建议12G显存起。


软件目录结构:

📂 ckpt/
├── 📂 flow/
│ │ └── flow.pt
│ ├── 📂 llm/
│ │ └── model-00001-of-00002.safetensors
│ └── 📂 vq32k-phoneme-tokenizer/
│ └── tokenizer.model
📂 deepface/
📂 tools/
......

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 14:42:13

Docker+Nginx+Node.js 全栈容器化部署

DockerNginxNode.js 全栈容器化部署 通过 Docker Compose 统一编排 Nginx、Node.js 服务,实现前后端分离部署。前端使用 Unity WebGL 创建交互式界面,后端基于 Node.js 提供 REST API 通信。重点讲解网络配置、反向代理策略、端口映射、跨域处理等实战中…

作者头像 李华
网站建设 2026/6/10 14:45:06

飞书文档导出终极解决方案:告别手动下载的烦恼

飞书文档导出终极解决方案:告别手动下载的烦恼 【免费下载链接】feishu-doc-export 项目地址: https://gitcode.com/gh_mirrors/fe/feishu-doc-export 还在为飞书文档的本地备份而头疼吗?曾经我也面临着同样的困扰,直到发现了feishu-…

作者头像 李华
网站建设 2026/6/10 14:42:23

深蓝词库转换:免费开源输入法词库格式互转终极指南

深蓝词库转换:免费开源输入法词库格式互转终极指南 【免费下载链接】imewlconverter ”深蓝词库转换“ 一款开源免费的输入法词库转换程序 项目地址: https://gitcode.com/gh_mirrors/im/imewlconverter 在数字化时代,不同输入法之间的词库格式不…

作者头像 李华
网站建设 2026/6/10 12:52:50

5大常见OCR识别难题,Umi-OCR如何帮你轻松解决?

还在为图片中的文字识别而烦恼吗?无论是截图中的代码片段、PDF文档的批量处理,还是多语言文本的准确提取,Umi-OCR作为一款免费开源的离线OCR软件,都能为你提供专业级的解决方案。本文将带你了解如何通过Umi-OCR应对各种OCR识别挑战…

作者头像 李华
网站建设 2026/6/10 14:41:15

MsgViewer:跨平台邮件文件处理利器

在当今数字化办公环境中,邮件已成为不可或缺的沟通工具。然而,当遇到特殊的邮件文件格式时,很多用户会感到束手无策。MsgViewer作为一款纯Java实现的邮件查看工具,完美解决了这一痛点,让邮件查看变得简单高效。 【免费…

作者头像 李华
网站建设 2026/6/10 14:40:42

终极密钥配置指南:轻松解锁Zotero-GPT全部潜能

还在为Zotero-GPT插件报错"your secretKEY is not configured"而烦恼吗?这个看似复杂的技术问题,其实就像你新买的手机需要插入SIM卡才能打电话一样简单。API密钥就是Zotero-GPT连接智能服务的"SIM卡",没有它&#xff0c…

作者头像 李华