人形机器人要走进千家万户,面临的核心挑战之一就是如何安全、自然地与人类及复杂环境进行物理交互。传统的模仿学习(Imitation Learning)方法虽然能让机器人做出流畅的动作,但往往表现出极高的“刚性”——即机器人会不计代价地修正偏离参考轨迹的误差。一旦遇到碰撞或意外阻力,这种僵硬的控制逻辑轻则导致任务失败,重则损坏机器人或伤及他人。具身智能与空间感知为公众号视频号|欢迎关注来自麻省理工学院(MIT)Improbable AI 实验室的研究团队提出了 SoftMimic。这是一种全新的学习框架,旨在让机器人不仅能追踪参考动作,还能根据外部力量表现出可控的“合规性(Compliance)”。通过引入用户指定的“刚度(Stiffness)”参数,机器人学会了在受到干扰时优雅地偏离原始路径,实现“以柔克刚”。该研究在 Unitree G1 人形机器人上成功实现了实机部署。
图 1:SoftMimic 合规运动追踪演示该图展示了 SoftMimic 在多种现实场景中的优异表现。无论是吸收猛烈的碰撞、轻柔地与人交互、在外界干扰下维持平衡,还是在搬运不同重量的载荷时自动调整姿态,SoftMimic 都能表现出极强的鲁棒性。图中蓝色表示参考动作,红色箭头表示作用在机器人上的外部推力。核心挑战目前的强化学习(RL)模仿算法(如经典的 DeepMimic)通常将所有偏离参考动作的行为视为“错误”。当机器人撞到桌子或被人推搡时,控制器会施加巨大的补偿力试图回到原位,这在充满不确定性的环境中是非常危险的。直接通过 RL 学习合规性非常困难,因为“硬性追踪”往往是算法的一个强大局部最优解。为了打破这一局限,SoftMimic 提出了一套基于数据增强的策略。SoftMimic 框架研究的核心思路不再是盲目地最小化追踪误差,而是让机器人学习“如何根据力来改变动作”。
图 2:基于合规运动增强的全身控制流程该图展示了 SoftMimic 的两阶段训练过程:线下合规运动增强(CMA):利用逆运动学(IK)求解器,生成一组在不同外部扳手(Wrench)和刚度参数下的可行运动轨迹数据集()。线上强化学习训练:策略 观察机器人的本体感受状态和原始参考动作(),但其奖励函数是基于追踪增强后的合规目标()。持续动作的逻辑闭环为了精确定义机器人应该如何“妥协”,研究者给出了合规目标位姿的形式化表达:公式解读: 和 分别是链接 的理想合规位置和旋转。 和 是原始参考动作的位姿。 和 是作用在链接上的外部力和力矩。 和 是用户指定的平动和转动刚度。 这个公式本质上将机器人的肢体建模成了一个虚拟弹簧:受力越大,偏离参考位置就越远;刚度越小,偏离程度也越大。核心技术研究者使用微分逆运动学(Differential IK)来生成增强数据集。为了保证动作既合规又不失去平衡,IK 求解器遵循一套严谨的任务优先级权重方案。
图 6:SoftMimic 的泛化能力与抗干扰表现该图(结合文中 Section III-C)展示了 IK 优化目标的权重分配:合规交互(权重 5.0):最高优先级,确保交互点(如手部)遵循弹簧行为公式。足部放置(权重 2.5):确保支撑脚保持稳定,不发生漂移。质心(CoM)稳定(权重 0.1):允许身体进行必要的偏移以维持平衡。关键帧姿态(权重 0.01):保持原始动作的基本风格(如肘部、肩膀的相对位置)。通过这种层级优化,机器人即使在手部受到剧烈拉扯时,也能通过全身关节的协调(如弯腰、屈膝)来吸收能量,而不是僵硬地对抗。强化学习在训练阶段,策略 并不直接知道外部力 的大小。它必须通过观察历史 3 帧的本体感受数据(关节位置 、速度 、加速度等)来隐式推断外部力的存在,并做出反应。图 3:刚度依从性曲线该图显示了 SoftMimic 在不同刚度指令下的表现。横轴是用户给定的刚度命令,纵轴是实际测量出的等效刚度。可以看到,SoftMimic 在很宽的量程内( 到 )都能完美贴合“理想依从线”(绿色实线),而传统的 DeepMimic(蓝色点线)则始终保持在高刚度水平,无法调节。奖励函数定义SoftMimic 的奖励函数 由追踪奖励和合规奖励组成,其中合规奖励项 定义为:该奖励机制强制策略学习在感知到外部力时,主动偏向 CMA 生成的合规轨迹。实验结果研究人员对比了 SoftMimic 与硬性追踪基线(Stiff Baseline)在多种任务下的表现。图 4:在未知环境中的碰撞力对比该柱状图展示了机器人在三种意外碰撞场景(放置箱子出错、伸手碰墙、走过障碍物)下的最大接触力。结果显示,在低刚度模式下,SoftMimic 产生的交互力远低于基线模型,极大地降低了损坏机器人或环境的风险。图 5:刚度调节对碰撞力的实时控制该曲线图显示了当机器人手部撞击一叠木块时,接触力随时间的变化。低刚度指令(蓝色曲线)产生的力平稳且受控;而高刚度指令(红色曲线)则会产生巨大的冲击力,导致木块塔瞬间倒塌。这直观展示了“安全性”与“追踪精度”之间的权衡。表 1:无干扰情况下的动作追踪质量对比表格解读:在没有外部干扰的理想情况下,SoftMimic 的追踪误差仅比纯硬性基线稍高一点点。这证明了该方法在获得合规性的同时,并没有牺牲基本的动作还原能力。结论与未来展望SoftMimic 为人形机器人的全身控制提供了一套“刚柔并济”的方案。它不仅让机器人学会了追踪动作,更赋予了机器人感知和适应物理干扰的智能。通过 CMA 数据增强,RL策略能够轻松掌握原本难以搜索到的合规行为。展望未来,研究团队计划将固定刚度提升为动态调整刚度,例如在搬运重物时自动调高刚度,在与人握手时自动调低刚度。此外,将合规性扩展到机器人全身(如躯干、背部)而非仅限于手部,将使人形机器人在复杂、拥挤的人类环境中运行得更加得心应手。
SoftMimic:具身智能新突破,让人形机器人学会“以柔克刚”的全身控制
张小明
前端开发工程师
SMBus信号时序图解:快速理解起始与停止条件
SMBus起始与停止时序全解析:从波形到实战的硬核指南你有没有遇到过这样的情况:SMBus通信莫名其妙失败,示波器抓出来的波形看起来“差不多”,但从设备就是不回应?或者系统长时间运行后总线“锁死”,只能靠断…
深入Linux内核世界:从零掌握设备驱动开发核心技术
深入Linux内核世界:从零掌握设备驱动开发核心技术 【免费下载链接】精通Linux设备驱动程序开发资源下载分享 《精通Linux 设备驱动程序开发》资源下载 项目地址: https://gitcode.com/Open-source-documentation-tutorial/84c74 🚀 想成为真正的L…
StreamDiffusion快速上手:5分钟掌握实时AI图像生成技术
StreamDiffusion快速上手:5分钟掌握实时AI图像生成技术 【免费下载链接】StreamDiffusion StreamDiffusion: A Pipeline-Level Solution for Real-Time Interactive Generation 项目地址: https://gitcode.com/gh_mirrors/st/StreamDiffusion StreamDiffusio…
React-Flip-Toolkit:打造丝滑动画效果的终极指南
React-Flip-Toolkit:打造丝滑动画效果的终极指南 【免费下载链接】react-flip-toolkit A lightweight magic-move library for configurable layout transitions 项目地址: https://gitcode.com/gh_mirrors/re/react-flip-toolkit 在当今用户体验至上的时代&…
模型过拟合严重 后来才知道动态调整L2正则化系数
💓 博客主页:借口的CSDN主页 ⏩ 文章专栏:《热点资讯》 目录人类和AI的相爱相杀史(附真实翻车现场) 一、当AI开上马路:自动驾驶的"优雅翻车" 二、AI医生:能看CT却分不清感冒和流感 三…
LLM提示词与传统SQL注入攻击的深度对标及防御新范式
SQL注入作为传统Web安全的“常青树”漏洞,凭借对语法规则的精准破坏横行数十年;而随着大语言模型(LLM)的规模化落地,提示词注入攻击正以“语义层面SQL注入”的姿态,成为AI时代安全领域的头号威胁。二者看似…