MAI-UI: Real-World Centric Foundation GUI Agents

Hanzhang Zhou*, Xu Zhang*, Panrong Tong, Jianan Zhang, Liangyu Chen,
Quyu Kong, Chenglin Cai, Chen Liu, Yue Wang, Jingren Zhou, Steven HOI,
Tongyi Lab, Alibaba Group
*Lead contributors
All authors are core contributors
Corresponding to yue.w@alibaba-inc.com

MAI-UI 是由通义-MAI 实验室开发的全尺寸 GUI 智能体基座模型家族,规模从 2B 到 235B。

整体性能

MAI-UI 在 5 个 GUI 定位基准测试和导航基准测试(AndroidWorld、MobileWorld)中均达到 SOTA 性能。

技术亮点

首次将用户交互、MCP 工具调用、端云协同三大能力通过自主进化数据管线和大规模在线强化学习技术,原生地集成于统一架构之中。(目前 2B 与 8B 模型已开源。)

MCP 工具使用

模型上下文协议工具,增强功能能力。

用户交互

在真实场景中具备先进的用户交互能力。

在线强化学习

大规模在线强化学习,实现模型的持续改进和适应。

端云协同

设备与云端高效协同,实现平衡的性能表现。

真实世界演示

观看 MAI-UI 在不同真实场景中的表现。

演示 1:办公场景

演示 2:日常生活场景

演示 3:购物场景

演示 4:出行场景

端云协同

端云协同:简单任务

端云协同:复杂任务

真实世界 MobileWorld 评估

我们还推出了 MobileWorld 基准测试:在保持与 AndroidWorld 相同水平的严格、可复现评估的同时,MobileWorld 通过引入四个额外特性,提供了一个更具挑战性的在线移动使用基准测试,更好地捕捉真实世界的智能体行为。

🎯
广泛真实世界覆盖
20 个移动应用中的 201 个精心策划的任务
🔄
长时程任务
多步骤推理和跨应用工作流
👥
智能体-用户交互
需要动态人机协作的新颖任务
🔧
MCP 增强任务
支持模型上下文协议(MCP)以评估混合工具使用
AndroidWorld 与 MobileWorld 的对比。Mobile World 具有更困难的任务、更多步骤、更多跨应用工作流,模型准确率更低,证明了其增加的难度。

GUI 定位性能

ScreenSpot-Pro
Model Avg
Gemini-3-Pro 72.7
Seed1.8 73.1
GTA1-7B 50.1
UI-Venus-7B 50.8
GUI-Owl-7B 54.9
GUI-Owl-32B 58.0
GTA1-32B 63.6
UI-Venus-72B 61.9
UI-MAI-2B 57.4
+ Zoom-In 62.8
UI-MAI-8B 65.8
+ Zoom-In 70.9
UI-MAI-32B 67.9
+ Zoom-In 73.5
UI-Vision
Model Avg
InfiGUI-G1-3B 22.0
OS-Altas-7B 9.0
UI-Tars-1.5-7B 22.3
UI-Venus-7B 26.5
InfiGUI-G1-7B 26.1
Phi-Ground 27.2
UI-TARS-72B 25.5
UI-Venus-72B 36.8
UI-MAI-2B 30.3
+ Zoom-In 31.9
UI-MAI-8B 40.7
+ Zoom-In 42.4
UI-MAI-32B 47.1
+ Zoom-In 49.2
MMBench-GUI L2
Model Avg
InfiGUI-G1-3B 73.4
OS-Atlas-7B 41.4
UI-TARS-1.5-7B 64.3
UGround-V1-7B 65.7
GTA1-7B 78.5
GUI-Owl-7B 80.5
InfiGUI-G1-7B 80.8
GUI-Owl-32B 83.0
GTA1-32B 83.4
UI-TARS-DPO-72B 74.3
InternVL3-78B 72.2
UI-MAI-2B 82.6
UI-MAI-8B 88.8
UI-MAI-32B 91.3
OSWorld-G
Agent Model Avg
UI-TARS-1.5-7B 52.8
GTA1-7B 55.1
GUI-Owl-7B 55.9
UI-Venus-7B 58.8
OpenCUA-32B 59.6
GUI-Owl-32B 58.0
GTA1-32B 65.2
UI-Venus-72B 70.4
UI-MAI-2B 52.0
+ Zoom-In 55.9
UI-MAI-8B 60.1
+ Zoom-In 64.2
UI-MAI-32B 67.6
+ Zoom-In 70.9
OSWorld-G-Refine
Agent Model Avg
Operator 57.8
Jedi-3B 61.0
Jedi-7B 63.8
UI-TARS-1.5-7B 64.2
GTA1-7B 67.7
Qwen2.5-VL-32B 59.6
OpenCUA-32B 70.2
GTA1-32B 72.2
UI-MAI-2B 63.5
+ Zoom-In 66.3
UI-MAI-8B 68.6
+ Zoom-In 72.9
UI-MAI-32B 73.9
+ Zoom-In 75.0
ScreenSpot-V2
Model Avg
Phi-ground 83.8
OS-Atlas-7B 85.1
UI-Tars-1.5-7B 89.0
OpenCUA-7B 92.3
GTA1-7B 92.4
GUI-Owl-7B 92.8
UI-Venus-7B 94.1
GUI-Owl-32B 93.2
OpenCUA-32B 93.4
GTA1-32B 95.2
UI-Venus-72B 95.3
UI-MAI-2B 92.5
UI-MAI-8B 95.2
UI-MAI-32B 96.5

引用

如果您在研究中使用了 MAI-UI,请引用我们的论文:

@misc{zhou2025maiuitechnicalreportrealworld,
                    title={MAI-UI Technical Report: Real-World Centric Foundation GUI Agents}, 
                    author={Hanzhang Zhou and Xu Zhang and Panrong Tong and Jianan Zhang and Liangyu Chen and Quyu Kong and Chenglin Cai and Chen Liu and Yue Wang and Jingren Zhou and Steven Hoi},
                    year={2025},
                    eprint={2512.22047},
                    archivePrefix={arXiv},
                    primaryClass={cs.CV},
                    url={https://arxiv.org/abs/2512.22047}, 
              }
@misc{kong2025mobileworldbenchmarkingautonomousmobile,
                    title={MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive, and MCP-Augmented Environments}, 
                    author={Quyu Kong and Xu Zhang and Zhenyu Yang and Nolan Gao and Chen Liu and Panrong Tong and Chenglin Cai and Hanzhang Zhou and Jianan Zhang and Liangyu Chen and Zhidan Liu and Steven Hoi and Yue Wang},
                    year={2025},
                    eprint={2512.19432},
                    archivePrefix={arXiv},
                    primaryClass={cs.AI},
                    url={https://arxiv.org/abs/2512.19432}, 
              }
@misc{chen2025uiinsenhancingguigrounding,
                    title={UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning}, 
                    author={Liangyu Chen and Hanzhang Zhou and Chenglin Cai and Jianan Zhang and Panrong Tong and Quyu Kong and Xu Zhang and Chen Liu and Yuqi Liu and Wenxuan Wang and Yue Wang and Qin Jin and Steven Hoi},
                    year={2025},
                    eprint={2510.20286},
                    archivePrefix={arXiv},
                    primaryClass={cs.CV},
                    url={https://arxiv.org/abs/2510.20286}, 
              }