【VLA】InternVLA-A1: Robotic Manipulation统一VLA框架-深圳市維司達科技有限公司

note

文章目录

note
一、InternVLA-A1: Robotic Manipulation

一、InternVLA-A1: Robotic Manipulation

【具身智能大模型进展】讲的故事是模型通过统一框架整合三大“专家模块”，形成“理解→生成→动作”闭环。InternVLA-A1: Unifying Understanding,Generation and Action for Robotic Manipulation， https://arxiv.org/pdf/2601.02456，主页: https://internrobotics.github.io/internvla-a1.github.io/，代码：https://github.com/InternRobotics/InternVLA-A1，DATA：https://huggingface.co/datasets/InternRobotics/InternData-A1，模型权重：https://huggingface.co/InternRobotics/InternVLA-A1-3B，

1）理解专家：基于InternVL3或Qwen3-VL多模态模型，将多视图观测（图像）编码为视觉token、语言指令编码为文本token，融合生成环境语义上下文（前缀token h_und）；
2）生成专家：采用Cosmos CI8×8连续VAE token化器处理图像，先将256×256图像编码为32×32潜特征，再通过卷积层压缩至4×4（仅16个token）以提升效率；基于理解专家的语义上下文，预测未来15帧（约1秒）的场景潜特征，经解码重建为预测图像；
3）动作专家：结合语言目标、当前观测（h_und）、生成专家的未来预测结果，通过流匹配目标生成机器人控制指令（动作块aˆ_𝑡:𝑡+𝑘）。

另外，数据集方面，融合InternData-A1（27万+合成轨迹）与Agibot-World（100万+真实轨迹），覆盖家居、工业等5大场景、3000余种物品、超5.33亿帧数据，涵盖动态/静态、单机器人/多机器人协作等多类场景。

Qwen2.5如何实现高效推理？GPU算力优化部署教程

Qwen2.5如何实现高效推理？GPU算力优化部署教程 1. 为什么0.5B小模型反而更值得部署？ 你可能第一眼看到“Qwen2.5-0.5B-Instruct”会下意识划走——毕竟现在动辄7B、14B甚至72B的模型满天飞，0.5B听起来像“玩具级”。但实际用过就知道&#…

李华

Flowise效果展示：从原始网页到结构化JSON输出的Web Scraping案例

Flowise效果展示：从原始网页到结构化JSON输出的Web Scraping案例 1. Flowise是什么：让AI工作流变得像搭积木一样简单你有没有试过想把一个网页里的商品信息自动提取出来，转成标准的JSON格式，但一打开代码编辑器就犯难&#xff…

李华

DeepSeek-R1-Distill-Qwen-1.5B参数详解：torch_dtype=‘auto‘在混合精度推理中的作用

DeepSeek-R1-Distill-Qwen-1.5B参数详解：torch_dtypeauto在混合精度推理中的作用 1. 为什么一个1.5B模型值得你花5分钟读完这篇参数解析你可能已经见过太多“轻量模型”宣传——标榜“低显存”“秒启动”，结果一跑就OOM，或者输出断句混乱、…

李华

Lychee多模态重排序模型效果对比：T→T/I→I/T→I四类任务得分可视化展示

Lychee多模态重排序模型效果对比：T→T/I→I/T→I四类任务得分可视化展示 1. 什么是Lychee？一个专为图文检索精排而生的多模态模型你有没有遇到过这样的问题：在图文混合搜索系统里，初检结果一大堆，但真正相关的内容却…

李华

MedGemma X-Ray保姆级教程：从镜像启动到结构化报告生成

MedGemma X-Ray保姆级教程：从镜像启动到结构化报告生成 1. 这不是科幻，是今天就能用的AI阅片助手你有没有想过，一张普通的胸部X光片，不用等放射科医生排班，不用翻厚重的影像学教材，只要上传、点击、提问…

李华

Allegro导出Gerber文件命名规范最佳实践

以下是对您提供的博文内容进行深度润色与结构重构后的技术文章。整体遵循“去AI化、强人设、重实战、轻套路”的原则，摒弃模板式表达，强化一线工程师视角的思考逻辑、真实踩坑经验与可落地细节，同时大幅增强语言节奏感、专业可信度与阅读沉浸感。从命名开始的制造信任…

李华