5亿视频炼出全球最大 GUI 开源数据集、推理 Token 省71%小模型反超大模型——小米 AI 团队多篇论文入选 ICML 2026

2026-05-15 09:05 来源：小米技术人工智能 1,618 次阅读

摘要： 从5亿条互联网视频中炼出全球最大的开源 GUI 操作数据集，让7B 模型在 ScreenSpot-Pro 上准确率提升38%；3B 参数的小模型做时序推理，干掉专用大模型还省了71%的 Token。这不是 PPT 愿景，而是小米 AI 团队研究成果的真实体现。近日，ICML 2026（International Conference on Machine Learning）公布了论文录用结果。

从5亿条互联网视频中炼出全球最大的开源 GUI 操作数据集，让7B 模型在 ScreenSpot-Pro 上准确率提升38%；3B 参数的小模型做时序推理，干掉专用大模型还省了71%的 Token。这不是 PPT 愿景，而是小米 AI 团队研究成果的真实体现。

近日，ICML 2026（International Conference on Machine Learning）公布了论文录用结果。小米及合作单位共有11篇最新研究成果入选。入选论文不是孤立的学术发表，而是一套完整的 AI 能力进化拼图。底座层有 MoE 训练稳定性（R3）和神经架构自动搜索（SPARK）；能力层有推理增强（LED、VeriTime）和多模态理解（Visual Para-Thinker、Video-OPD、MECAT）；应用层有 GUI Agent 全栈，从数据（Video2GUI）到评测（GUIEvalKit）到推理架构（CoME），再到视觉内容生成（GAD）。从训练到部署，各技术环节均有论文背书，体现了小米在 AI 技术研发上的长期投入与落地能力。

ICML 是全球机器学习领域历史最悠久、影响力最大的顶级国际会议之一，与 NeurIPS、ICLR 并称机器学习三大顶会。会议由国际机器学习学会（IMLS）主办，聚焦机器学习理论、算法及跨领域应用的前沿突破，汇聚全球顶尖学者与工业界专家，长期引领行业技术演进方向。ICML 2026为第43届，将于2026年7月6日至11日在韩国首尔 COEX 会展中心举办。

GUI Agent，从“能演示”到“真能用”

从 OpenAI 的 Operator 到 Google 的 Project Mariner，从 Manus 到各家“AI 帮你操作手机”的 demo，都成为行业重点关注方向。值得关注的是，现阶段 demo 与日常可用上存在一定差距。我们近期发布的论文，覆盖“数据-评测-推理”全链路，旨在推动 GUI Agent 从实验室搬向真实场景。

**▍**Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining****

合作者单位：北京大学

论文作者：熊伟民，谷舒豪，叶博文，岳子豪，李磊，宋非凡，李素建，田昊

训练 GUI Agent，最大的瓶颈不是模型架构，而是数据。人工标注成本高昂且局限于单一平台，仿真环境覆盖有限。互联网上5亿条教程视频里明明藏着海量操作示范，但如何从“看视频”变成“可训练的结构化轨迹”？

Video2GUI 构建了“元信息粗筛+视频内容细筛”两阶段流水线，从5亿条视频中筛选出420万条高质量教程，再用 Gemini-3-Pro 将视频转为带任务指令、动作时间戳和屏幕坐标的结构化轨迹。最终产出 WildGUI，目前规模最大的开源 GUI 预训练数据集，包含1270万条轨迹、1.245亿张截图，覆盖1500余个应用与网站、五大平台。

效果说话：利用 WildGUI 预训练后，MiMo-VL-7B 在 OSWorld-G 上取得67.6分，超越 Qwen3-VL-32B 与 Seed1.5-VL；在 ScreenSpot-Pro 上准确率从41.2提升到56.9，提高近38%。Scaling Experiments 表明，性能随预训练 token 数增加持续提升，扩展至200B Token 时仍未出现饱和迹象。

Video2GUI 的核心价值，在于提供了一套可大规模 scale up 的数据生产配方：从互联网海量视频中自动提炼 GUI 操作知识，无需人工标注、不受平台限制，数据规模的天花板理论上等于互联网上所有 GUI 教学内容的总和。这套 pipeline，是通用 GUI Agent 迈向真正规模化的一块重要基石，也是一条充满想象空间的路径。

▍Scaling, Benchmarking, and Reasoning of Vision-Language Agents for Mobile GUI Navigation

***表示共同第一作者**

论文作者：屈恒*，刘怡珂*，金任任，张问宗，高鹏至，刘伟，栾剑

项目链接：https://github.com/xiaomi-research/guievalkit

GUI Agent 到底行不行？之前的评测存在三大盲区：训练数据规模有限且以英文为主，缺乏中文移动应用覆盖；评测工具碎片化，模型之间缺乏统一比较标准；数据规模、训练范式与推理能力对 Agent 表现的影响尚未被系统研究。

本文从数据规模化（Scaling）、统一评测（Benchmarking）和推理分析（Reasoning）三个维度展开系统研究。数据层构建了 HyperTrack，目前规模最大的中文移动 GUI 导航数据集，超过16000条真实任务轨迹，覆盖674款中文 Android 应用的17个类别。评测层开源了 GUIEvalKit 统一评测工具包，集成五大主流基准，支持超过30个模型的统一离线评测与半在线评测。分析层提出决策级评估框架，首次将 GUI Agent 的评估从“执行正确率”提升到“行为分布模式”。

核心发现：模型性能随训练数据量对数近似线性增长，且基于 GRPO 的强化学习微调在相同数据规模下始终优于监督微调。更关键的是，推理模式扩展了可行决策空间但降低了稳定性，这为小米手机 Agent 的工程优化提供了精准的调参方向。

HyperTrack Statistics

GUIEvalKit Framework

Decision-Level Evaluation

▍CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

合作者单位：中国人民大学、武汉大学、南洋理工大学、香港中文大学

论文作者：刘宇轩，徐伟恺，黄琨，陈畅与，赵健坤，高鹏至，刘伟，栾剑，商烁，杜博，文继荣，严睿

论文链接：https://arxiv.org/abs/2602.24142

让 AI 操作手机，模型需要同时具备“看懂屏幕、规划任务、决定动作、调用函数”四种能力。传统 MoE 用面向输入的专家激活，无法精确匹配推理不同阶段所需的能力，导致专家激活与真实推理过程存在错配。

CoME（Channel-of-Mobile-Experts）提出面向 GUI Agent 的多专家推理架构，将推理过程显式划分为屏幕总结、子任务规划、动作决策和函数调用四个阶段，并为每个阶段配置专门专家。通过面向输出的专家激活，使模型在生成不同阶段输出 Token 时激活对应能力的专家。针对多阶段推理中的错误传播问题，引入信息增益来衡量每个中间推理步骤对最终动作预测的贡献，自动筛选更有效的推理轨迹。

实验表明，CoME 在使用更少的激活参数和训练数据的条件下优于 Dense GUI Agents 与 Sparse MoE Models。这验证了“能力解耦+阶段对齐”是 GUI Agent 推理效率提升的关键路径。对小米而言，这意味着端侧 Agent 可以用更小的模型、更少的算力，实现更稳定的多步操作。

让大模型“更会想”，推理能力增强

DeepSeek-R1、OpenAI o 系列掀起了“推理模型”热潮。但当前推理模型存在一个隐秘问题：强化学习训练后，模型虽然会“深度思考”，却丧失了“探索多条路径”的能力。以下论文，分别从“恢复推理时的探索多样性”与“专攻时序数据推理”两个方向展开，推动推理模型走向实用。

▍Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models

合作者单位：中国人民大学、Unimore

论文作者：谭文辉，Fiorenzo Parascandolo，Enver Sangineto，鞠建忠，罗振波，曹乾，Rita Cucchiara，宋睿华，栾剑

论文链接：https://arxiv.org/abs/2602.01698

项目链接：https://github.com/AlbertTan404/LED

你有没有发现，给 DeepSeek-R1 提高采样温度，pass@k 反而不涨了？这不是个例。几乎所有 RL 训练后的推理模型都出现了 entropy collapse：输出层已经“塌缩”，提高温度只制造噪声，无法产生真正有意义的多样性路径。

但好消息是，模型内部的 hidden states 依然保留了丰富的 uncertainty。LED（Latent-Exploration-Decoding）正是基于这一发现：不改模型、不加参数、不需训练，仅在解码时利用模型内部多层隐状态的聚合概率分布进行采样，就能恢复推理模型的测试时探索能力。

在五个模型、六个测试基准上验证了 LED 的有效性。更强的测试时探索能力不仅提升了 pass@k，也同样带来了更优的 RL 训练效果。

通俗地说，RL 训练后的推理模型就像一个考试只会用“标准解法”的学生，答对率高但遇到新题就卡住。LED 让它重新学会“试试别的思路”，而且不需要重新训练。对小米 AI 助手而言，这意味着面对用户的开放性问题时，模型能探索更多解题路径，而不是只会一种固定套路。

▍Time Series Reasoning via Process-Verifiable Thinking Data Synthesis and Scheduling for Tailored LLM Reasoning

合作者单位：中山大学，新加坡国立大学

论文作者：周加慧，李丹，李铂鑫，张霄，孟二利，李林，陈卓敏，娄坚，See-Kiong Ng

论文链接：https://arxiv.org/pdf/2602.07830

项目链接：https://anonymous.4open.science/r/VeriTime-E017

时间序列数据无处不在：物联网设备、新能源汽车电池监控、智能家居传感器、工业能源管理。让大模型真正具备时序推理能力，是端侧 AI 从“聊天助手”进化为“智能管家”的关键。但问题是：缺乏精心构建的时序 CoT 训练数据，且没有专门针对时序数据的强化学习算法。

VeriTime 从数据合成、数据调度、强化学习训练三个维度出发。构建了自动化数据合成流水线 TSRgen，生成首个带有过程可验证标注的时序-文本多模态推理数据集 TSRBench；设计了数据调度机制，根据难度和任务分类安排训练样本；开发了两阶段强化微调方法，通过细粒度、多目标的过程级奖励监督中间推理步骤。

结果：推理 Token 消耗平均降低71%，使 3B-4B 模型的推理能力达到甚至超越更大规模专有 LLM 的水平。

对小米智能家居和车载系统而言，这意味着一个小模型就能在端侧完成“判断电池是否异常”“预测空调何时该开”“分析驾驶模式变化”等时序推理任务，无需调用云端大模型，推理更快速。

多模态理解，让 AI 真正“看懂”图片、视频和声音

大模型不只需要会读文字。看懂图片细节、定位视频中的关键片段、理解复杂音频场景，这些能力决定了 AI 产品的体验。我们近期发布的论文，覆盖了视觉推理、视频时序定位、图像生成和音频理解。

▍Visual Para-Thinker: Divide-and-Conquer Reasoning for Visual Comprehension

合作者单位：浙江大学，湖南大学

论文作者：许浩然，王鸿裕，李佳泽，陈顺鹏，童子钊，鞠建忠，罗振波，栾剑

论文链接：https://arxiv.org/pdf/2602.13310v1

现有推理模型靠“想得更深更长”来提升能力（如思维链、强化学习）。但垂直扩展在视觉领域容易陷入固定思维模式。并行思维（Parallel Thinking）能够缓解探索范围的收窄，但将这一范式扩展到视觉领域仍然是一个开放的研究问题。

Visual Para-Thinker 是首个面向大型多模态模型的并行推理框架。核心在于研究视觉分区在并行化推理中的作用，并基于此提出两种不同的策略：基于块的分区和基于扫描顺序的分区。为了确保并行推理路径的独立性，提出了路径感知注意力机制和可学习并行旋转位置编码。

在 V*、CountBench、RefCOCO 系列和 HallusionBench 等多个基准上，方法在3B 和7B 模型规模上均持续超越原始模型、顺序推理以及多数投票等基线方法。

通俗地说，以前 AI 看图是”盯着一个点使劲想“，Visual Para-Thinker 让它学会”分区并行看、最后汇总“，就像人类面对一张复杂图片时，会同时扫视不同区域再综合判断。这对小米相册智能搜索、AR 导航中的场景理解等功能有直接价值。

▍Video-OPD: Efficient Post-Training of Multimodal Large Language Models for Temporal Video Grounding via On-Policy Distillation

合作者单位：浙江大学，中国人民大学

论文作者：李佳泽，殷皓，许浩然，许博深，谭文辉，何泽文，鞠建忠，罗振波，栾剑

论文链接：https://arxiv.org/pdf/2602.02994

“帮我找到这个视频里他开始跑步的那个片段”，视频时序定位（Temporal Video Grounding）是视频 AI 最核心的能力之一。强化学习是当前提升此能力的主流后训练范式，但现有基于分组相对策略优化的方法面临两大瓶颈：稀疏的序列级奖励信号导致信用分配困难；多轮策略采样带来巨大计算开销。

Video-OPD 将稀疏的序列级奖励替换为来自教师模型的细粒度、逐词元的监督信号，同时严格保持策略在线的优化特性。进一步提出教师验证差异聚焦的训练课程策略，优先选择教师可靠验证且与当前学生策略存在最大差异的训练轨迹。

结果：显著超越现有 GRPO 方法，平均性能提升超过17%，且在多个更广泛的视频理解基准上展现了强大的泛化能力。计算开销大幅降低，实现了更优越的效率-性能权衡。

这对小米的视频编辑、智能监控回放、车载行车记录仪检索等场景意味着：AI 能更快、更准地帮你在长视频中定位关键时刻。

▍Restoring Initial Noise Sensitivity in Text-to-Image Distillation through Geometric Alignment

合作者单位：武汉大学，巴黎综合理工学院

论文作者：黄华洋，王若瑜，赵锦晖，邓巍，周代国，栾剑，武宇，竺烨

Stable Diffusion 等扩散模型通过蒸馏将多步采样压缩为少步生成，大幅提升了推理效率。但一个被普遍忽视的问题浮出水面：蒸馏后的模型对初始噪声失去了敏感性，不同随机种子生成的结果趋同，多样性下降，布局控制等下游能力也随之减弱。

本文指出根源在于主流蒸馏目标采用点对点对齐，在匹配输出的同时”抹平“了模型对输入扰动的响应能力。GAD（Geometry-Aware Distillation）从”对齐输出“转向”对齐响应“，通过 Jacobian 响应对齐恢复局部敏感性，且作为正则项无缝集成于多种蒸馏范式，无需额外推理成本。

在多个生成架构与蒸馏方法上均提升了功能一致性与生成能力；在布局/低级控制任务中显著恢复教师性能；同时有效缓解多样性与保真度之间的权衡。

通俗地说，蒸馏后的图像生成模型变成了“千篇一律的画师”，你给不同的灵感它画出来都差不多。GAD 让它重新变回“有想象力的创作者”，同一个提示词能画出风格迥异的作品。对小米手机影像 AI 编辑、壁纸生成等功能，这意味着 AI 创作更有惊喜感。

▍MECAT: A Multi-Experts Constructed Benchmark for Fine-Grained Audio Understanding Tasks

合作者单位：香港中文大学

论文作者：牛亚东*，王天资*，Heinrich Dinkel，孙兴伟，周嘉豪，李罡，刘继忠，刘循英，张俊博，栾剑

论文链接：https://arxiv.org/abs/2507.23511

项目链接：https://github.com/xiaomi-research/mecat

GPT-4o 能听懂语音了，但它真的能“听懂”一段复杂音频吗？语音、音乐、环境声同时出现时，即使是最强的 Gemini 系列模型，在细粒度音频描述任务上得分也仅为53.1%。

MECAT 针对此问题提出了一条完整解决路径。数据侧，构建了“多领域专家模型+LLM Chain-of-Thought 推理+多级质量控制”的自动化标注流水线，产出约20000条覆盖8个音频域的高质量标注。指标侧，提出 DATE（Discriminative-Enhanced Audio Text Evaluation），首次可量化地区分“泛泛之谈”与“精准描述”。

对17个主流模型的系统评测清晰地揭示了：从“事件级感知”到“细粒度语义理解”之间仍存在显著差距。这为小米小爱同学的音频理解能力升级（比如精准识别“谁在说话、背景是什么音乐、环境噪声来自哪里”）提供了明确的优化方向和评测标尺。

训练底座，让大模型训得更稳、搜得更准

模型再强，若训练过程不稳定，则难以落地；架构设计再精巧，若检索效果不准确，将无法使用。我们聚焦“基础设施级”问题，为大模型研发提供坚实底座支撑。

▍Stabilizing MoE Reinforcement Learning by Aligning Training and Inference Routers

合作者单位：北京大学

论文作者：马文晗，张海林，赵亮，宋一帆，王昱栋，穗志方，罗福莉

论文链接：https://arxiv.org/abs/2510.11370

MoE 架构在各家旗舰大模型中被广泛采用，其优势已成为行业共识。但一个棘手问题仍然存在：MoE 模型做强化学习训练时极其不稳定，动不动就崩。原因在于精度问题导致 MoE 的路由器在训练和推理阶段可能做出不同的专家选择，策略分布不一致，引发训练不稳定甚至崩溃。传统的重要性采样方法仍难以完全稳定训练。

本文提出的 Rollout Routing Replay（R3）通过在推理阶段记录路由分布，并在训练阶段重放这些分布，增强了训推的一致性。这不仅显著降低了训练与推理策略的 KL 散度，还能精准优化生成当前 Token 所需的专家，避免对未使用专家产生不必要的梯度噪声。

R3 在多个 MoE 模型族（Qwen3-MoE、DeepSeek-V2-Lite）的强化学习任务上均显著提高了训练稳定性，避免了训练崩溃。性能分析表明，R3 仅带来约 3.45%的训练速度下降和可控的内存开销。

直观来说，MoE 模型的训推不一致，本质上是“参与生成的专家”和“接收反馈的专家”可能并非同一批。R3 坚持“谁干活，谁收反馈”的原则，有效缓解了这一问题。这是小米为行业提供的一套切实可行的稳定性解决方案。

▍Structured Progressive Knowledge Activation for LLM-Driven Neural Architecture Search

合作者单位：西安交通大学，北方工业大学，中关村学院

论文作者：刘振*，刘雨涵*，王进军，宋伟，刘剑毅，付靖文

论文链接：https://arxiv.org/abs/2605.04057

项目链接：https://github.com/AIM-ResearchLab/SPARK

从 DeepMind 的 AlphaEvolve 到开源的 OpenEvolve，“让 AI 自己设计 AI”正在成为研究热点。让大模型充当“代码进化引擎”自动搜索神经网络架构（NAS）正在成为新范式。但 LLM 看似“局部修改”，却常常牵一发而动全身，候选架构频繁报错，导致评估预算浪费在无法运行的代码上。

本文将这一现象命名为“功能纠缠”（Functional Entanglement），架构代码中的“算子”和“调用方式”本该是两件独立的事，却被 LLM 同时改动。SPARK 提出“先定位、再修改”的结构化编辑范式：把代码切成 Operator 和 Action 两块互斥区域，每轮只动其中一块，让每个候选都能跑通。在相同的计算量下，计算成本更低，**准确率**更高。

通俗地说，过去用 LLM 搜架构像一个急性子的程序员“想到哪改到哪”，改一处坏三处；SPARK 让它像有经验的工程师，先想清楚“改算子还是改调用方式”，再只动那一块。这也为小米在端侧 AI、智能汽车、智能家居等场景下持续打磨更小、更快、更省的专用模型，提供了一条低成本、可规模化的底层技术路径。

从底层训练稳定性到模型推理增强，从 GUI Agent 全链路到多模态感知理解，这些研究成果勾勒出一幅清晰的图景：小米 AI 正在从“单点突破”迈向“体系化能力建设”。当你让小爱帮你订外卖、让手机自动整理相册、让汽车读懂行车记录仪，背后支撑的正是这些正在从论文走向产品的技术。ICML 2026，首尔见。