CVPR 2026 NTIRE：小米影像算法的技术突破

2026-05-19 10:48 来源：小米技术人工智能 1,184 次阅读

摘要：近日，小米在 CVPR 2026 NTIRE 赛事中荣获三项奖项。其中，小米玄戒多媒体算法团队斩获高效超分辨率赛道冠军，小米大模型应用团队夺得人像修复赛道冠军与反光消除赛道亚军。 NTIRE（New Trends in Image Restoration and Enhancement）由 CVPR 组委会承办，是全球规模最大、水平最高的图像恢复与增强领域学术研讨会。小米在本次赛事中展现了从硬件优

近日，小米在 CVPR 2026 NTIRE 赛事中荣获三项奖项。其中，小米玄戒多媒体算法团队斩获高效超分辨率赛道冠军，小米大模型应用团队夺得人像修复赛道冠军与反光消除赛道亚军。

NTIRE（New Trends in Image Restoration and Enhancement）由 CVPR 组委会承办，是全球规模最大、水平最高的图像恢复与增强领域学术研讨会。小米在本次赛事中展现了从硬件优化到生成式视觉算法的技术深度。

高效超分辨率，推理速度与重建质量的双重领先

▍Efficient Super-Resolution Challenge

NTIRE 高效超分辨率挑战赛要求参赛团队在严格保持图像重建质量下限前提下，进一步压缩推理耗时、参数量与计算量，推动在手机、边缘设备等资源受限场景下的真实落地。此外，本届比赛进一步强化推理速度（Runtime）在综合评分中的权重。

在本届比赛的最终评估中，小米玄戒多媒体算法团队依托在芯片多媒体影像算法领域的软硬融合方向持续积累，凭借 SPANV2以综合得分4.43的显著优势位列第一，在推理速度、计算量、参数规模之间取得了出色的整体均衡。

NTIRE 2026 Efficient SR Challenge 最终排行榜：XiaomiMM（SPANV2）综合得分4.43，位列第一

在这个赛道，小米玄戒多媒体算法团队延续了上一届冠军方案 SPAN（Swift Parameter-free Attention Network）的技术路线，提出了全新一代方法 SPANV2，从算法结构与硬件执行两个层面同时发力，在精度几乎无损的情况下将推理延迟再次大幅压缩。

▍SPANV2：从「受控残差更新」出发的新一代高效超分网络

与上一代 SPAN 相比，SPANV2的改动集中在两处：一是让网络在修复图像时不再套用一种固定策略处理全图，而是能根据画面内容自适应判断哪里需要精修、以什么方式精修；二是把 GPU 在注意力计算中原本需要三次读写显存的步骤合并为一次完成，省下了大量重复的数据搬运开销。两点叠加，使模型在画质几乎无损的前提下，推理速度再次被显著提高。

团队将高效超分的设计问题重新抽象为一个受控残差更新（Governed Residual Update）框架：网络中的每一个基本模块都被拆解为两个解耦的阶段——先由一个轻量分支生成候选修正（candidate correction），再由一个显式的「调控器（governor）」决定这份修正应以何种方式、在多大程度上被注入到后续传播路径中，相当于每个模块都在做“提方案、再过审”两步走。在这个统一视角下，上一代 SPAN 对应于调控器为解析、无参数形式的最经济实例，把关逻辑是一条固定规则；SPANV2则在同一宏观结构下，用一个轻量可学习的通道混合调控器替换了原有的解析映射，让“准入”过程具备内容自适应性和跨通道建模能力，判断更细腻，也更贴合画面本身的特点，且仅引入极少量额外参数。

SPANV2整体架构：上方 near-pixel 分支提供像素重复的上采样先验，下方5个 SPABV2模块负责深度特征提取，两路通过深度可分离卷积融合后经 PixelShuffle×4完成重建

围绕这一核心思想，SPANV2在工程实现上做了三处关键重构：

1.可学习的通道混合注意力**。**原 SPAN 的注意力完全由两个中间特征的逐元素乘积得到，只能“挑出要加强的部分”，且通道之间互不相干，表达能力受限于「非负」与「通道独立」两个隐含约束。SPANV2的 SPABV2模块将其替换为一个 C×C 的1×1可学习投影，注意力图既可以取负值，也能显式建模通道之间的互补、抑制与补偿关系，像是从单色画笔升级成一整套调色盘——参数几乎没多花，重建质量却能再上一层。

2.融合算子 span_attn_op。团队通过深入的性能画像发现，对小型高效超分网络来说，真正的性能瓶颈并不在 FLOPs，而在显存带宽——注意力步骤中三次读写 C×H×W 的特征张量带来了大量冗余的 DRAM 往返，相当于把同一批数据在显存里反复搬进搬出三趟。为此，团队手写了一个专用算子，将1×1注意力卷积、逐元素加法和逐元素乘法三步融合进一个 kernel，并结合共享内存缓存、float4向量化加载、寄存器级特征复用与循环展开等手段，把原本重复三次的搬运压到一次完成——GPU 开一次“货箱”就干完所有活。对本来就轻量的模型来说，搬运省下的时间比计算省下的还要来得实在，这也是 SPANV2在推理延迟上拉开差距的一项底层优化。

span_attn_op 将1×1注意力卷积、逐元素加法、逐元素乘法融合为单个专用算子，把原本重复三次的数据搬运压缩到一次

3.近邻**像素**上采样分支。自然图像里，天空、墙面、光滑物体表面这类低频区域占了绝大多数能量，其实并不需要“修”，直接放大就够用。团队因此在主干之外并行引入一条极轻量的深度可分离分支，权重初始化为精确的最近邻上采样，相当于给低频部分开了一条“直通车”；网络在训练初期就天然带有这个强先验，主干分支得以把容量集中用于头发、毛发、纹理和边缘这些真正需要精雕细琢的高频残差。

完整的 SPANV2仅含0.139M 参数、32个特征通道、5个堆叠的 SPABV2模块与一个近邻上采样分支，换算下来模型体积只有几百 KB，纯 CNN 架构不依赖特殊硬件，主流手机芯片的图像 ISP/NPU 都能直接跑起来——这意味着用户体验中多了一项悄悄生效、不拖慢快门、也不多占内存的底层能力。

值得一提的是，SPANV2的平均推理耗时（5.256 ms**）在本届比赛的提交方案中明显领先，相比去年的 SPAN 基线进一步降低了超过30%。官方报告在总结本届赛事时特别指出：「XiaomiMM 通过自定义融合专用算子，揭示了在高度优化的轻量级网络中，性能瓶颈越来越多地来自内存带宽而非算术复杂度，低层级的硬件-软件协同设计正在成为高效超分研究中不可或缺的维度。」算子级硬件感知优化**也由此在本届获奖方案中显现为一项重要的差异化能力。

5.256毫秒的单帧耗时，折算下来一秒能处理近200帧，比上一代再快约三成。拍摄时，取景预览会更跟手，连拍和视频超分也能稳住更高的帧率，后台处理一张照片的耗电也跟着下降。照片变清楚是肉眼能看见的部分；更省电、更少等待，是看不见但同样实在的那部分。