news 2026/4/22 22:08:16

【VLA】InternVLA-A1: Robotic Manipulation统一VLA框架

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【VLA】InternVLA-A1: Robotic Manipulation统一VLA框架

note

文章目录

  • note
  • 一、InternVLA-A1: Robotic Manipulation

一、InternVLA-A1: Robotic Manipulation

【具身智能大模型进展】讲的故事是模型通过统一框架整合三大“专家模块”,形成“理解→生成→动作”闭环。InternVLA-A1: Unifying Understanding,Generation and Action for Robotic Manipulation, https://arxiv.org/pdf/2601.02456,主页: https://internrobotics.github.io/internvla-a1.github.io/,代码:https://github.com/InternRobotics/InternVLA-A1,DATA:https://huggingface.co/datasets/InternRobotics/InternData-A1,模型权重:https://huggingface.co/InternRobotics/InternVLA-A1-3B,

1)理解专家:基于InternVL3或Qwen3-VL多模态模型,将多视图观测(图像)编码为视觉token、语言指令编码为文本token,融合生成环境语义上下文(前缀token h_und);
2)生成专家:采用Cosmos CI8×8连续VAE token化器处理图像,先将256×256图像编码为32×32潜特征,再通过卷积层压缩至4×4(仅16个token)以提升效率;基于理解专家的语义上下文,预测未来15帧(约1秒)的场景潜特征,经解码重建为预测图像;
3)动作专家:结合语言目标、当前观测(h_und)、生成专家的未来预测结果,通过流匹配目标生成机器人控制指令(动作块aˆ_𝑡:𝑡+𝑘)。

另外,数据集方面,融合InternData-A1(27万+合成轨迹)与Agibot-World(100万+真实轨迹),覆盖家居、工业等5大场景、3000余种物品、超5.33亿帧数据,涵盖动态/静态、单机器人/多机器人协作等多类场景。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 7:37:47

Qwen2.5如何实现高效推理?GPU算力优化部署教程

Qwen2.5如何实现高效推理?GPU算力优化部署教程 1. 为什么0.5B小模型反而更值得部署? 你可能第一眼看到“Qwen2.5-0.5B-Instruct”会下意识划走——毕竟现在动辄7B、14B甚至72B的模型满天飞,0.5B听起来像“玩具级”。但实际用过就知道&#…

作者头像 李华
网站建设 2026/4/23 11:29:12

Flowise效果展示:从原始网页到结构化JSON输出的Web Scraping案例

Flowise效果展示:从原始网页到结构化JSON输出的Web Scraping案例 1. Flowise是什么:让AI工作流变得像搭积木一样简单 你有没有试过想把一个网页里的商品信息自动提取出来,转成标准的JSON格式,但一打开代码编辑器就犯难&#xff…

作者头像 李华
网站建设 2026/4/23 12:31:59

MedGemma X-Ray保姆级教程:从镜像启动到结构化报告生成

MedGemma X-Ray保姆级教程:从镜像启动到结构化报告生成 1. 这不是科幻,是今天就能用的AI阅片助手 你有没有想过,一张普通的胸部X光片,不用等放射科医生排班,不用翻厚重的影像学教材,只要上传、点击、提问…

作者头像 李华
网站建设 2026/4/23 12:30:53

Allegro导出Gerber文件命名规范最佳实践

以下是对您提供的博文内容进行 深度润色与结构重构后的技术文章 。整体遵循“去AI化、强人设、重实战、轻套路”的原则,摒弃模板式表达,强化一线工程师视角的思考逻辑、真实踩坑经验与可落地细节,同时大幅增强语言节奏感、专业可信度与阅读沉浸感。 从命名开始的制造信任…

作者头像 李华