news 2026/6/23 5:05:20

京东开源全球首个全栈实时视频视觉语言交互模型,对比竞品胜率最高达87.9%

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
京东开源全球首个全栈实时视频视觉语言交互模型,对比竞品胜率最高达87.9%

【导语:近日,京东开源了实时视频视觉语言交互模型JoyAI-VL-Interaction,这是全球首个全栈开源的interaction模型和系统,能让大模型从“一问一答”走向“边看边说”,在评测中对比竞品优势明显。】


全球首个开源:开启实时视频交互新范式

京东近日开源的JoyAI-VL-Interaction,是全球首个全栈开源的interaction模型和系统,还获得了vLLM-Omni的day-0原生支持。此模型让大模型从传统的“一问一答”模式转变为“边看边说”,开发者基于该框架能快速搭建实景AI助手,可实现持续观察、自主判断和即时响应。

三重突破:超越传统模型局限

相比传统模型,JoyAI-VL-Interaction有三重显著突破。首先是主动判断,传统模型需等用户发起问题才处理画面,而它能持续观察视频流,自主判断何时说话或沉默。例如用户设置“裁判出示红牌时提醒我”,模型会自动预警。

其次是实时响应,传统视频理解多在上传完整视频后分析,而它面向正在发生的视频流,画面变化时就能响应,在安防预警等场景中更具价值。最后是适时智能体委托,它具备后台任务委派能力,遇到复杂任务可交给后台大模型或Agent,前台继续观察,开启了AI与人类协作的新范式。

高灵活性:支持多类型输入与组件替换

JoyAI-VL-Interaction支持摄像头、直播流、监控流等多种视频输入,也支持语音输入输出、可视化界面等。其ASR、TTS等组件都可按需替换,开发者能接入自己的语音服务、Agent等,具有很高的灵活性。

评测获胜:对比竞品优势明显

在评测中,JoyAI-VL-Interaction覆盖多个真实流式场景。在58个真人盲评案例中,对比豆包视频通话助手总体胜率达77.6%,对比Gemini视频通话助手总体胜率达87.9%,尤其在监控预警场景中对两个基线均取得100%胜率。

编辑观点:京东开源的JoyAI-VL-Interaction为实时视频交互领域带来新突破,其三重优势和高灵活性使其在实际应用中表现出色,有望推动相关产业发展。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/23 4:43:18

搭建生产级AI会话应用:从本地闭环到K8s上线的工程实践

1. 为什么“搭建自己的 AI 会话应用”不是玩具,而是工程师的必修课“搭建自己的 AI 会话应用”这九个字,表面看是搭个聊天窗口,背后却是一整套现代软件工程能力的集成现场。我从2018年开始做AI产品落地,经手过二十多个从零到一的对…

作者头像 李华
网站建设 2026/6/23 4:37:13

Bun:一个替代 Node.js 的 JavaScript 全家桶工具

文章目录Bun:一个替代 Node.js 的 JavaScript 全家桶工具Bun:一个替代 Node.js 的 JavaScript 全家桶工具 Bun 是一个面向 JavaScript 和 TypeScript 应用的全能工具集,在 GitHub 上拿到了 93,129 个 Star: Bun 的核心是一个 Jav…

作者头像 李华
网站建设 2026/6/23 4:20:17

短波电台测试系统工程:LabVIEW多设备同步与信道建模实战

1. 这不是“做个界面连个串口”——短波电台测试系统的本质矛盾很多人第一次听说“LabVIEW短波电台一体化测试系统”,脑子里立刻浮现出一个带旋钮、波形图和几个按钮的前面板,再配上几行VISA串口读写代码,就以为这事算完了。我2013年刚接手某…

作者头像 李华