note
文章目录
- note
- 一、InternVLA-A1: Robotic Manipulation
一、InternVLA-A1: Robotic Manipulation
【具身智能大模型进展】讲的故事是模型通过统一框架整合三大“专家模块”,形成“理解→生成→动作”闭环。InternVLA-A1: Unifying Understanding,Generation and Action for Robotic Manipulation, https://arxiv.org/pdf/2601.02456,主页: https://internrobotics.github.io/internvla-a1.github.io/,代码:https://github.com/InternRobotics/InternVLA-A1,DATA:https://huggingface.co/datasets/InternRobotics/InternData-A1,模型权重:https://huggingface.co/InternRobotics/InternVLA-A1-3B,
1)理解专家:基于InternVL3或Qwen3-VL多模态模型,将多视图观测(图像)编码为视觉token、语言指令编码为文本token,融合生成环境语义上下文(前缀token h_und);
2)生成专家:采用Cosmos CI8×8连续VAE token化器处理图像,先将256×256图像编码为32×32潜特征,再通过卷积层压缩至4×4(仅16个token)以提升效率;基于理解专家的语义上下文,预测未来15帧(约1秒)的场景潜特征,经解码重建为预测图像;
3)动作专家:结合语言目标、当前观测(h_und)、生成专家的未来预测结果,通过流匹配目标生成机器人控制指令(动作块aˆ_𝑡:𝑡+𝑘)。
另外,数据集方面,融合InternData-A1(27万+合成轨迹)与Agibot-World(100万+真实轨迹),覆盖家居、工业等5大场景、3000余种物品、超5.33亿帧数据,涵盖动态/静态、单机器人/多机器人协作等多类场景。