FAST:视觉-语言-动作模型的高效动作标记化
“我们提出了一种基于离散余弦变换的新的基于压缩的机器人动作标记化方案。我们的标记化方法,即频率空间动作序列标记化 (FAST),使我们能够针对标准离散化方法完全失败的高度灵巧和高频任务训练自回归VLA。基于FAST,我们发布了FAST+,一个通用机器人动作分词器,在100万条真实机器人动作轨迹上进行训练。它可以用作各种机器人动作序列的黑盒分词器,具有不同的动作空间和控制频率。”
该篇论文的有个思考点非常有意思,针对高频动作信号,他们是高度相关的,就是下一帧与本帧间差异非常小,“高度相关的动作标记会降低自回归 VLA 中使用的下一个标记预测目标的有效性。直观地说,在这种情况下,通常可以通过简单的映射来实现低标记预测损失,就像简单地复制最近的操作标记一样,使模型处于较差的局部最优状态。”
增大每步的差异性,来提升自回归的作用,不然直接复制也能得到较少的损失。具体可以看IV. CASE STUDY: HOW DOES TOKENIZATION AFFECT VLA TRAINING?四.案例研究:token化如何影响 VLA 培训?
“在这项工作中,我们从第一原则出发提出了一种新的代币化策略。我们的主要见解是,机器人动作信号需要在训练之前进行压缩,以减少连续标记之间的相关性。我们从基于压缩的标记化策略中获得灵感,例如语言模型常用的字节对编码方法 [27, 57]。然而,由于机器人动作是连续的,因此应相应地选择相应的压缩策略。因此,我们的方法基于离散余弦变换 (DCT) 编码,该编码广泛用于压缩图像等连续信号(例如 JPEG 压缩)。我们发现,由此产生的标记化方法,即频率空间动作序列标记化 (FAST),使我们能够通过简单的下一个标记预测(参见图 2,左侧,也可以见图3,FAST:本文提出的 DCT + BPE tokenizer,但在每个数据集上单独训练/拟合。)来训练自回归 VLA 策略,以实现标准离散化方法完全失败的高度灵巧和高频任务。”
“基于 FAST,我们开发了 FAST+(通用 tokenizer,在约 100 万条真实机器人 action sequence 上训练,可以直接作为黑盒 tokenizer 用在新机器人动作序列上),一种通用机器人动作分词器,在 100 万条真实机器人动作轨迹上进行训练,涵盖多种机器人实施例、动作空间和控制频率。我们证明,FAST+ 分词器可以有效地分词各种机器人动作序列,从单臂到双手动和移动机器人,并且是用于训练自回归 VLA 模型的良好现成分词器。当与 π0 VLA 集成时,基于 FAST 的自回归 VLA 可扩展至对 10,000 小时的机器人数据进行训练,并在各种任务中实现与基于扩散的 VLA 相当的性能,同时将训练时间缩短多达 5 倍(见图 1)。”
“在这项工作中,我们使用基于离散余弦变换(DCT)的压缩算法[1]。 DCT 是一种频率空间变换,将连续信号表示为各种频率的余弦元素之和。低频捕获信号的整体形状,而高频分量则反映急剧的跳跃。 DCT 是压缩算法中常用的变换,例如 JPEG 图像压缩 [61],因为它的简单性和计算效率,以及它对实际图像的强大压缩特性:由于像素通常平滑变化,DCT 通常可以仅用几个系数表示输入信号的大部分信息。可以通过省略低权重的频率分量来压缩信号。与基于矢量量化的学习压缩方法相比,基于 DCT 的压缩是一种分析方法,因此极其简单且快速。”
技术细节“我们将矩阵展平为一维整数向量,通过首先包含所有低频分量来交错动作维度,并训练字节对编码(BPE)标记器[27]以将其无损压缩为密集动作标记。”
“请注意,在 BPE 编码之前展平 |A|×H DCT 系数矩阵的顺序可能会对策略训练产生重大影响。有两种选择:列优先扁平化,即首先连接每个维度的最低频率分量,或行优先扁平化,即首先连接单个动作维度的所有频率分量。我们选择前者,因为我们发现,首先在自回归预测期间预测表征输出序列整体形状的低频分量会导致更稳定的策略推出。”
“我们的分词器唯一学习的组件是 BPE 编码器的词汇表”
“对于本体感受状态,我们应用 bin 标记化预处理,类似于RT-2的动作标记化[10],离散化为 256 个 bin。然后,我们将整数标记为文本输入序列的一部分。请注意,简单的 bin 标记化方案对于本体感受状态来说就足够了”
并且作者也将FAST+开源了。
所以核心来自三篇论文:
DCT: [1] Nasir Ahmed, T Natarajan, and Kamisetty R Rao. Discrete cosine transform. IEEE transactions on Computers, 100(1):90–93, 1974.
BPE: [27] Philip Gage. A new algorithm for data compression. The C Users Journal, 12(2):23–38, 1994.
RT-2: [10] Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski, Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu, Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Alex Herzog, Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang, Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao Lu, Henryk Michalewski, Igor Mordatch, Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi, Pierre Sermanet, Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke, Quan Vuong, Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu, and Brianna Zitkovich. Rt-2: Vision-language-action models transfer web knowledge to robotic control. In arXiv preprint arXiv:2307.15818, 2023.
实验方面,就是分别验证了FAST、FAST+的效果。