SoftMimic：具身智能新突破，让人形机器人学会“以柔克刚”的全身控制-深圳市維司達科技有限公司

人形机器人要走进千家万户，面临的核心挑战之一就是如何安全、自然地与人类及复杂环境进行物理交互。传统的模仿学习（Imitation Learning）方法虽然能让机器人做出流畅的动作，但往往表现出极高的“刚性”——即机器人会不计代价地修正偏离参考轨迹的误差。一旦遇到碰撞或意外阻力，这种僵硬的控制逻辑轻则导致任务失败，重则损坏机器人或伤及他人。具身智能与空间感知为公众号视频号|欢迎关注来自麻省理工学院（MIT）Improbable AI 实验室的研究团队提出了 SoftMimic。这是一种全新的学习框架，旨在让机器人不仅能追踪参考动作，还能根据外部力量表现出可控的“合规性（Compliance）”。通过引入用户指定的“刚度（Stiffness）”参数，机器人学会了在受到干扰时优雅地偏离原始路径，实现“以柔克刚”。该研究在 Unitree G1 人形机器人上成功实现了实机部署。
图 1：SoftMimic 合规运动追踪演示该图展示了 SoftMimic 在多种现实场景中的优异表现。无论是吸收猛烈的碰撞、轻柔地与人交互、在外界干扰下维持平衡，还是在搬运不同重量的载荷时自动调整姿态，SoftMimic 都能表现出极强的鲁棒性。图中蓝色表示参考动作，红色箭头表示作用在机器人上的外部推力。核心挑战目前的强化学习（RL）模仿算法（如经典的 DeepMimic）通常将所有偏离参考动作的行为视为“错误”。当机器人撞到桌子或被人推搡时，控制器会施加巨大的补偿力试图回到原位，这在充满不确定性的环境中是非常危险的。直接通过 RL 学习合规性非常困难，因为“硬性追踪”往往是算法的一个强大局部最优解。为了打破这一局限，SoftMimic 提出了一套基于数据增强的策略。SoftMimic 框架研究的核心思路不再是盲目地最小化追踪误差，而是让机器人学习“如何根据力来改变动作”。
图 2：基于合规运动增强的全身控制流程该图展示了 SoftMimic 的两阶段训练过程：线下合规运动增强（CMA）：利用逆运动学（IK）求解器，生成一组在不同外部扳手（Wrench）和刚度参数下的可行运动轨迹数据集（）。线上强化学习训练：策略观察机器人的本体感受状态和原始参考动作（），但其奖励函数是基于追踪增强后的合规目标（）。持续动作的逻辑闭环为了精确定义机器人应该如何“妥协”，研究者给出了合规目标位姿的形式化表达：公式解读：和分别是链接的理想合规位置和旋转。和是原始参考动作的位姿。和是作用在链接上的外部力和力矩。和是用户指定的平动和转动刚度。这个公式本质上将机器人的肢体建模成了一个虚拟弹簧：受力越大，偏离参考位置就越远；刚度越小，偏离程度也越大。核心技术研究者使用微分逆运动学（Differential IK）来生成增强数据集。为了保证动作既合规又不失去平衡，IK 求解器遵循一套严谨的任务优先级权重方案。
图 6：SoftMimic 的泛化能力与抗干扰表现该图（结合文中 Section III-C）展示了 IK 优化目标的权重分配：合规交互（权重 5.0）：最高优先级，确保交互点（如手部）遵循弹簧行为公式。足部放置（权重 2.5）：确保支撑脚保持稳定，不发生漂移。质心（CoM）稳定（权重 0.1）：允许身体进行必要的偏移以维持平衡。关键帧姿态（权重 0.01）：保持原始动作的基本风格（如肘部、肩膀的相对位置）。通过这种层级优化，机器人即使在手部受到剧烈拉扯时，也能通过全身关节的协调（如弯腰、屈膝）来吸收能量，而不是僵硬地对抗。强化学习在训练阶段，策略并不直接知道外部力的大小。它必须通过观察历史 3 帧的本体感受数据（关节位置、速度、加速度等）来隐式推断外部力的存在，并做出反应。图 3：刚度依从性曲线该图显示了 SoftMimic 在不同刚度指令下的表现。横轴是用户给定的刚度命令，纵轴是实际测量出的等效刚度。可以看到，SoftMimic 在很宽的量程内（到）都能完美贴合“理想依从线”（绿色实线），而传统的 DeepMimic（蓝色点线）则始终保持在高刚度水平，无法调节。奖励函数定义SoftMimic 的奖励函数由追踪奖励和合规奖励组成，其中合规奖励项定义为：该奖励机制强制策略学习在感知到外部力时，主动偏向 CMA 生成的合规轨迹。实验结果研究人员对比了 SoftMimic 与硬性追踪基线（Stiff Baseline）在多种任务下的表现。图 4：在未知环境中的碰撞力对比该柱状图展示了机器人在三种意外碰撞场景（放置箱子出错、伸手碰墙、走过障碍物）下的最大接触力。结果显示，在低刚度模式下，SoftMimic 产生的交互力远低于基线模型，极大地降低了损坏机器人或环境的风险。图 5：刚度调节对碰撞力的实时控制该曲线图显示了当机器人手部撞击一叠木块时，接触力随时间的变化。低刚度指令（蓝色曲线）产生的力平稳且受控；而高刚度指令（红色曲线）则会产生巨大的冲击力，导致木块塔瞬间倒塌。这直观展示了“安全性”与“追踪精度”之间的权衡。表 1：无干扰情况下的动作追踪质量对比表格解读：在没有外部干扰的理想情况下，SoftMimic 的追踪误差仅比纯硬性基线稍高一点点。这证明了该方法在获得合规性的同时，并没有牺牲基本的动作还原能力。结论与未来展望SoftMimic 为人形机器人的全身控制提供了一套“刚柔并济”的方案。它不仅让机器人学会了追踪动作，更赋予了机器人感知和适应物理干扰的智能。通过 CMA 数据增强，RL策略能够轻松掌握原本难以搜索到的合规行为。展望未来，研究团队计划将固定刚度提升为动态调整刚度，例如在搬运重物时自动调高刚度，在与人握手时自动调低刚度。此外，将合规性扩展到机器人全身（如躯干、背部）而非仅限于手部，将使人形机器人在复杂、拥挤的人类环境中运行得更加得心应手。

SoftMimic：具身智能新突破，让人形机器人学会“以柔克刚”的全身控制

SMBus信号时序图解：快速理解起始与停止条件

深入Linux内核世界：从零掌握设备驱动开发核心技术

StreamDiffusion快速上手：5分钟掌握实时AI图像生成技术

React-Flip-Toolkit：打造丝滑动画效果的终极指南

模型过拟合严重后来才知道动态调整L2正则化系数

LLM提示词与传统SQL注入攻击的深度对标及防御新范式

SMBus信号时序图解：快速理解起始与停止条件

深入Linux内核世界：从零掌握设备驱动开发核心技术

StreamDiffusion快速上手：5分钟掌握实时AI图像生成技术

React-Flip-Toolkit：打造丝滑动画效果的终极指南

模型过拟合严重 后来才知道动态调整L2正则化系数

LLM提示词与传统SQL注入攻击的深度对标及防御新范式

模型过拟合严重后来才知道动态调整L2正则化系数