CVPR 视频消除夺冠！小米开源视频消除神器 SVOR，专治三大顽疾

2026-04-23 08:52 来源：小米技术人工智能 154 次阅读

摘要：视频目标消除是一个非常实用的技术：当你在美丽的风景里拍了一段视频或 livephoto，而回看的时候发现画面中有不希望出现的内容（比如路人），这时景色已经变换无法再次拍摄，甚至已经离开了拍摄地点，视频消除技术可以挽救你的不完美视频。在实际研发视频消除任务的过程中，我们发现了一个普遍存在的问题：现有的方法大多在理想条件下设计和验证，而真实世界的视频远比论文里的测试场景复杂——模型识别的掩码边缘不够

视频目标消除是一个非常实用的技术：当你在美丽的风景里拍了一段视频或 livephoto，而回看的时候发现画面中有不希望出现的内容（比如路人），这时景色已经变换无法再次拍摄，甚至已经离开了拍摄地点，视频消除技术可以挽救你的不完美视频。

在实际研发视频消除任务的过程中，我们发现了一个普遍存在的问题：现有的方法大多在理想条件下设计和验证，而真实世界的视频远比论文里的测试场景复杂——模型识别的掩码边缘不够准、物体消除后阴影仍然留在画面里、目标快速移动时逐帧处理频繁"跟丢"导致闪烁……这些问题让许多 SOTA 方法在真实使用中显得力不从心。

为此，我们提出了SVOR（Stable Video Object Removal）框架，专门针对这三类"不完美条件"设计了对应的解决方案：用 MUSE 窗口化联合策略解决运动抖动，用 DA-Seg 去噪感知分割提升遮罩容错能力，并通过课程式两阶段训练让模型真正学会处理阴影和反射残留。

最终，SVOR 在多个标准数据集和退化遮罩基准上均达到了新的 SOTA 水平，并在 CVPR 2026 物理感知视频实例消除挑战赛中从18支参赛队伍中脱颖而出，荣获第一名。代码现已完整开源，希望能切实帮助开发者和创作者在真实场景中用好视频消除技术。

视频物体消除，到底难在哪？

先说说这个任务的痛点。

在视频编辑与内容创作中，“消除不想要的元素”一直是个高频刚需。然而，当我们将各类方法从论文迁移到真实场景时，往往会遇到重重挑战：用户随手绘制的掩码不够精细；物体虽然去掉了，影子却留了下来；目标一旦快速移动，消除区域还会出现明显的闪烁——这些“不完美”，让许多 SOTA 模型在实际视频面前显得力不从心。

原因是很多已有的视频消除工作都在完美条件下开展的，但问题在于，现实世界的视频哪有那么多完美条件？

物体在动，光线在变，阴影忽隐忽现，遮罩边缘歪歪扭扭……现有的方法要么留下残影，要么画面闪烁，要么干脆把不该删的也删了。

结合真实世界的使用场景，小米大模型应用团队总结了三类"不完美"：