news 2026/5/1 18:17:26

[开源] OpenTalking:整合 LLM、流式 TTS 与 WebRTC 的实时数字人编排框架

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
[开源] OpenTalking:整合 LLM、流式 TTS 与 WebRTC 的实时数字人编排框架

[开源] OpenTalking:面向实时对话的开源数字人产线 (LLM+TTS+WebRTC)

V站的各位开发者朋友们大家好!今天想和大家分享我们开源的一个新项目:OpenTalking。这是一个开源的实时数字人框架。

开发数字人对话产品时,大家往往会遇到一个痛点:各种优秀的开源模型(大语言模型、语音合成、数字人渲染)都有了,但要把它们拼凑成一个低延迟、体验顺畅的 WebRTC 实时产品链路却非常繁琐。

OpenTalking 的目标就是帮你把数字人对话产品需要的链路串起来。它涵盖了前端交互、会话状态、LLM 回复、TTS/音色选择、打断控制、字幕事件、WebRTC 音视频播放,以及外部模型服务调用。相比于死磕底层的推理模型,OpenTalking 专注于提供一个完善的产线编排层

🌟 核心亮点与能力

  • 开箱即用的实时链路:从 LLM 回复、流式 TTS,到字幕事件、状态事件和 WebRTC 播放,全部在一条链路中完成。
  • 兼容高质量与轻量级部署:原生支持 FlashTalk 风格推理服务作为高质量数字人渲染后端(基于 OmniRT 框架)。如果你只想跑通体验,也提供轻量 Demo 路径,无需先下载完整 FlashTalk 权重就能跑通 API、TTS、WebRTC 和前端体验。
  • 灵活的 LLM 生态接入:无缝支持 DashScope、Ollama、vLLM、DeepSeek 等所有 OpenAI-compatible endpoint。
  • 多硬件与多形态部署:支持单进程 demo、API/Worker 分布式模式以及 Docker Compose。无论是面向 RTX 3090 / 4090 的消费级显卡单卡实时配置,还是面向昇腾 910B 等企业级 GPU/NPU 的高质量私有化部署,都能很好地支持。
  • 对话打断控制:当前已具备说话轮次的打断基础,后续计划升级为全链路取消。

🛠 技术栈

  • 开发语言:Python 3.9+
  • 后端框架:FastAPI
  • 前端框架:React 18
  • 流媒体通信:WebRTC

🚀 快速上手体验

为了让大家能快速看到效果,我们对链路做了简化处理。默认情况下,你只需要在本地部署一个模型服务(FlashTalk WebSocket),然后将 LLM、STT、TTS 全部走阿里云百炼的 API(例如 OpenAI 兼容端点和 DashScope 实时 ASR/TTS),就可以跑起来。后续你可以无痛切换为自己本地部署的各类自定义模型服务。

🔗 传送门与交流

项目基于 Apache License 2.0 协议开源,欢迎大家来跑一跑,提提 Issue 或者 PR!如果觉得有帮助,求大佬们赏个 Star ⭐️!

  • GitHub 地址:https://github.com/datascale-ai/opentalking
  • 详细文档:仓库内包含了快速开始、架构说明、部署文档以及硬件指南等完整文档。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 18:11:31

从‘你好’到[CLS]:用Python一步步拆解Hugging Face Tokenizer的工作原理

从‘你好’到[CLS]:用Python一步步拆解Hugging Face Tokenizer的工作原理 自然语言处理(NLP)中最神奇的一刻,莫过于看着自己敲下的文字被转换成计算机能理解的数字。这背后的魔法师就是tokenizer——一个将字符串拆解、重组为数字…

作者头像 李华
网站建设 2026/5/1 18:09:23

pthread亲和性继承的一个坑:main绑核让整个进程退化到单核

现象 C 多线程进程 qfactor(19 万行/分钟的高频股票因子计算),配 work_thread_nums8,应该用 8 个 build 线程并行处理 8 个 partition 的数据。但实测 CPU 只跑满 1 个核(101%),per-factor cycl…

作者头像 李华
网站建设 2026/5/1 18:07:03

MiMo邀请

我在用 MiMo 开放平台体验 小米顶尖模型 MiMo V2.5等 ,通过我的邀请码注册为新用户,即得 10 API 体验金。邀请码:GTWXDX。注册:https://platform.xiaomimimo.com?refGTWXDX(注册后点控制台左下方入口填入,…

作者头像 李华
网站建设 2026/5/1 18:06:26

OBS-VirtualCam终极指南:Windows虚拟摄像头快速安装与配置教程

OBS-VirtualCam终极指南:Windows虚拟摄像头快速安装与配置教程 【免费下载链接】obs-virtual-cam 项目地址: https://gitcode.com/gh_mirrors/obs/obs-virtual-cam 你是否想在Zoom、Teams、Discord等第三方软件中直接使用OBS Studio的专业级画面&#xff1f…

作者头像 李华
网站建设 2026/5/1 18:06:26

告别显示器诱骗器!用Sunshine+Moonlight+Easy Virtual Display,把iPad Pro变成Windows真·4K扩展屏

用软件方案实现iPad Pro作为Windows真4K扩展屏的完整指南 每次在咖啡厅看到有人带着厚重的便携显示器,我都会暗自庆幸自己找到了更优雅的解决方案。作为一名长期使用iPad Pro作为Windows笔记本第二屏的用户,我想分享这套经过实战检验的纯软件方案——它…

作者头像 李华