小米具身模型真机后训练开源，小米机器人的“丝滑秘籍”也尽数交给你

2026-04-28 23:18 来源：小米技术人工智能 13 次阅读

摘要：两个月前，我们发布了 Xiaomi-Robotics-0 模型，并深度分享了其在复杂工业场景中的实战经验。模型发布首月就在 HuggingFace 全球 VLA 模型下载榜斩获第六名。看到 Xiaomi-Robotics-0 在全球开发者手中释放潜力，我们深受鼓舞。为了让其真正成为“开箱即用”的生产力利器，今天我们给大家带来新的能力演示并正式发布 Xiaomi-Robotics-0 真机后训练（

两个月前，我们发布了 Xiaomi-Robotics-0 模型，并深度分享了其在复杂工业场景中的实战经验。模型发布首月就在 HuggingFace 全球 VLA 模型下载榜斩获第六名。

看到 Xiaomi-Robotics-0 在全球开发者手中释放潜力，我们深受鼓舞。为了让其真正成为“开箱即用”的生产力利器，今天我们给大家带来新的能力演示并正式发布 Xiaomi-Robotics-0 真机后训练（Post-training）全流程。

加速进化仅需20小时

基于预训练基座，我们仅利用 20 小时的任务数据进行真机后训练，便让 Xiaomi-Robotics-0 掌握了“将耳机收纳进耳机盒”这一高难度动作，并能够连续丝滑地完成多个耳机的收纳。

依次完成不同颜色耳机收纳

该任务涉及两大核心挑战：

耳机与槽位间公差极小，模型必须达到亚毫米级的空间感知精度，才能完成精准对位。
耳机与盒体表面粗糙度最低至 Ra0.03μm，极易在触碰过程发生位移，模型必须能快速修正动作偏差，避免装配失败。

多视角展示装配细节

三重策略破局“偷懒效应”

为实现机器人动作的无缝衔接，我们在部署阶段采用了异步推理（Asynchronous Execution）方案：在执行当前轨迹时，同步推理下一步动作。为了确保模型前后两次推理生成的动作轨迹不发生突变，我们在训练中引入了动作前缀（Action Prefixing）。这如同为接力赛选手提供了“助跑区”，让新动作能够从既有轨迹中自然生长，从而实现动作流的平滑切换。

在引入 Action Prefixing 后，一个行业通病——“偷懒效应”随之而来：模型容易过度依赖动作惯性，而选择性地忽视实时的视觉反馈。为此，我们引入了三项关键技术，平衡动作的连贯性与响应的灵敏度：

a. 自适应加权机制 (Adaptive Loss Re-weighting)：根据模型预测值与真实轨迹的偏差，动态调整 Loss 权重，强迫模型在关键误差处“刻苦补课”