蚂蚁集团推出"地狱级"手机AI考试，现有智能助手集体翻车

这项由蚂蚁集团Venus团队主导的研究于2026年2月发表，论文编号为arXiv:2604.06182，感兴趣的读者可通过该编号查询完整论文原文。

手机里的AI助手，你真的信得过吗？

每天早上，你拿起手机叫AI助手帮你订一张下午三点的火车票，或者问它"能帮我把这份文件压缩一下发给老王吗？"这听起来再普通不过。然而，当你真的依赖这类助手处理日常事务时，它究竟靠不靠谱，是个没人认真考过的问题——至少，没有人用真实、复杂的场景认真考过。

蚂蚁集团的研究团队意识到了这个问题。现有的AI手机助手测评，更像是只考了学生"默写课文"的能力，却从没考过"在嘈杂的图书馆里完成一篇有截止时间的报告"这样的真实任务。于是，他们设计了一套全新的考试系统，名叫VenusBench-Mobile，专门用来测评那些能自动帮你操作手机的AI智能体（也就是业内说的"移动端GUI智能体"）。考试结果相当令人警醒：就连当前最顶尖的AI系统，也只能完成不到四成的任务。

这项研究的核心贡献在于两件事：一是重新定义"考什么"，把考题从"能不能操作某个App"升级为"能不能真正帮到用户"；二是重新定义"怎么考"，设计了一套能精确诊断AI哪里出了问题的能力分析框架。

一、为什么现有的考试都在"放水"

要理解这套新考试为什么重要，得先明白旧考试哪里出了问题。

现有的AI手机助手评测基准，大多遵循同一个套路：选几款App，然后针对每个App出一批操作题。比如选了"备忘录"这个App，就出题"创建一个新笔记"或者"把某条笔记加粗"。这种设计思路叫做"以App为中心"——App是考试的主角，所有题目都围绕App能做什么来出。

问题在于，真实世界里用手机的人，从来不是围着App转的。你打开手机的出发点是"我要解决一件事"，比如"我想找到上个月花在外卖上的总金额"，而不是"我想测试一下Pro Expense这款记账App的功能"。App只是实现目的的工具，用户才是主角。

当考题全都是"打开某某App，点这里，填那里"这种预设好路径的操作时，AI要做的不过是按图索骥，跟着确定的脚本走。但现实中，用户说的话往往是模糊的、带有上下文的，甚至是不完整的。"帮我把那个压缩包里的文件找出来发给老王"——这句话里没有说用哪个App解压，没有说发送方式，甚至"老王"是谁也得AI自己去联系人里找。

更棘手的是，现有考试还有另一个缺陷：当AI答错了，你不知道它到底哪里错了。是它没看清屏幕？还是没理解你说的话？还是走到一半忘了你叫它干什么？就好比一个学生考试考了60分，老师只知道他没及格，却不知道他是数学题不会做、还是阅读理解没看懂、还是最后几道题时间来不及了。这种粗糙的评分方式，对改进AI几乎没有指导意义。

正是针对这两个核心痛点——"考的内容不够真实"和"考完了不知道问题在哪"——蚂蚁集团的研究团队设计了VenusBench-Mobile。

二、这套考试到底考什么：十种真实用户需求

VenusBench-Mobile的题库共包含149道主要题目，横跨十大类用户需求场景，全部在真实的安卓模拟器环境中运行，涵盖27款开源Android应用。

第一大类叫做"功能辅助"，针对的是一个很普遍的现实：大多数人并不完全了解手机里每款App能做什么。这类题目包括三种形式。第一种是操作说明，比如"告诉我怎么用ZipXtract这个App解压文件"，AI需要自己去探索这款App，然后把操作步骤完整地告诉用户。第二种是功能探索，比如"我想在Markor里新建一个LaTeX文件并编译成PDF，这个App支持吗？"AI需要自己去查清楚再回答。第三种是界面导航，比如"帮我找到Fitbook里可以添加体重记录的那个界面"，AI要把用户带到对的地方。

第二大类叫做"冲突处理"。用户给了一个指令，但实际情况和指令对不上。比如用户说"删掉Markor的Algo文件夹里所有3条笔记"，但实际上这个文件夹里有4条。这时AI应该察觉到矛盾，主动联系用户确认，而不是自作主张地删掉3条就算完事。

第三大类叫做"模糊指令"。用户表达的意思清楚，但省略了关键信息，比如没说用哪个App。"帮我把这个zip文件里的内容找出来"，用户心里是明白的，但AI要能自己判断出用ZipXtract来解压，而不是一脸懵地不知道从何下手。

第四大类叫做"多轮对话"。真实的用户交互往往不是一次性的。用户先让AI"创建一条笔记"，然后说"把标题改一下"，再说"把刚才加的那行字加粗"，最后说"通过短信分享给朋友"。AI需要记住每一轮的上下文，把一系列零散的指令串成一个完整的任务。

第五大类叫做"界面状态感知"。手机屏幕上的内容是动态变化的，不是静止等AI去读的。比如一道题要求AI打开番茄计时器App，等长休息计时跑到18到20秒的时候按下暂停。AI要像真人一样盯着屏幕上的数字变化，在对的时间做出反应。

第六大类叫做"视觉操作"。有些任务需要在手机屏幕上做精细的图形操作，比如"打开Draw这个绘图App，用蓝色笔圈出橡皮擦，用红色笔圈出卷笔刀"。AI必须能准确识别图片里的具体物体，并在正确位置进行精确的绘制操作。

第七大类叫做"复杂信息浏览"。用户需要在多个页面、多个来源之间查找并比较信息。这类题目的难度远超"在搜索框里查个关键词"——比如要求AI阅读Gallery里存储的一张外卖截图，在多个商家的多款饮品中找出30分钟内能送达的最便宜的美式咖啡，并返回商家名称和商品全名。

第八大类叫做"噪声抵抗"。现实中用手机时，随时可能有电话打进来、App崩溃、弹出一个无关的广告窗口。AI在执行任务的途中遭遇这些干扰，能不能处理完干扰后继续完成原来的任务？这类题目专门测试这种抗干扰能力。研究团队模拟了四种干扰类型：来电、App崩溃、操作失败、无关弹窗。

第九大类叫做"超难浏览题"，灵感来自斯坦福大学专门用来难倒网络搜索AI的BrowseComp基准。这类题目把多个约束条件叠加在一起，比如"在这7款App里，找出图标是蓝色的、而且主界面没有搜索栏的那一款"。AI必须逐一检查每个App，同时满足所有条件才能得分。

第十大类叫做"稳定性评测"，这是一个独立的子集，包含20道基础题，每道题衍生出四个变体版本：把指令翻译成中文、换一种语气但意思相同的英文表达、把手机界面切换成深色模式、把设备换成平板横屏模式。一道题只有在全部五种条件下都答对，才算真正稳定通过。

三、怎么衡量AI哪里出了问题：五维能力雷达图

出完题，还需要一套精密的评分体系。VenusBench-Mobile提出了"PUDAM"能力分类框架，把AI需要具备的核心能力拆分成五个维度，每个维度又分四个难度等级。

第一个维度是感知能力，衡量的是AI看懂手机屏幕的水平。最基础的一级是认识文字和图标，第二级是理解整体界面的布局和逻辑关系，第三级是精确定位细小的视觉元素，比如一个角落里只有几个像素大的感叹号按钮，第四级是追踪动态变化，比如实时读取一个倒计时数字。

第二个维度是理解能力，衡量的是AI读懂用户意图的水平。从理解"点击确认按钮"这样最简单的单步指令，到处理带有多个限定条件的复杂指令，再到识别出指令里的隐含矛盾或者信息缺失。

第三个维度是决策能力，衡量的是AI在执行过程中临机应变的水平。最基础的是照着既定路线走，不需要临时调整；高一级的是遇到弹窗、广告、意外情况时能灵活绕过；最高级的是遇到冲突时主动反思、自我纠错、评估风险。

第四个维度是操作能力，衡量的是AI在屏幕上执行动作的精准度。从点击、长按这类基础操作，到需要拖拽轨迹控制的复杂手势，再到精确调整滑块到特定位置，最高级是像人手一样实时根据视觉反馈调整动作轨迹。

第五个维度是记忆能力，衡量的是AI跨步骤、跨页面保持任务上下文的能力。最基础的是在多个步骤中记住自己要干什么；高一级的是在浏览多个页面时积累并记录信息；再高一级是在整个长任务中追踪不断变化的状态；最高级的是跨越多个独立任务保留记忆，比如"删掉我刚才创建的前两条笔记"。

当AI在某道题上失败时，研究团队可以对照这张能力矩阵，精确地找到是哪个维度、哪个难度级别出了问题，而不只是记录一个"失败"的结果。

四、考试结果：全军覆没的成绩单

研究团队找来了目前业界最强的一批AI手机助手来应考，包括蚂蚁集团自家的UI-Venus系列、阿里的Qwen3-VL系列、专门为手机操作训练的GUI-Owl和MAI-UI等开源模型，以及用谷歌Gemini-3-Pro和OpenAI GPT-5.1作为"大脑"、配合UI-Venus-72B执行操作的商业级方案。

成绩出来，场面相当难看。最强的商业方案Gemini-3-Pro加UI-Venus-72B的组合，总体成功率只有36.9%。也就是说，接近三分之二的任务都没有完成。其余的开源模型更是惨烈，大多数成功率低于15%，Qwen3-VL-8B和GUI-Owl-7B只有6.7%。

这个数字和同一批AI在AndroidWorld（目前业界最主流的旧式评测基准）上的成绩相比，差距触目惊心——平均成功率下降了约50个百分点。换句话说，同一个AI，在旧考试里考了七八十分，在这套新考试里只能考二三十分甚至更低。这说明旧考试确实存在严重的"放水"问题，高分并不代表真正有用。

从具体题目类型来看，界面状态感知和视觉操作是最难攻克的两类，所有模型的平均成功率分别只有2.5%和4.2%，几乎全军覆没。噪声抵抗类题目表现稍好，但也只有32.1%的平均成功率，而且高度依赖模型规模——Gemini-3-Pro能达到75%，而小模型们却普遍跌到个位数。

通过PUDAM框架的细粒度分析，研究团队找到了失败的根本原因所在。在所有能力维度中，记忆能力是最致命的瓶颈。几乎所有的开源小模型，在需要长期追踪状态的高难度记忆任务中，成功率接近于零。即使是体量更大的Gemini-3-Pro，记忆维度的成功率也从基础任务的41%跌到了高难度任务的31%。这说明问题不仅仅是模型不够大，而是现有的AI在架构层面就缺少持续追踪信息的机制——单纯地扩大"上下文窗口"（也就是AI一次性能记住的内容长度）是不够的，需要专门设计的状态追踪机制。

感知能力是第二个明显瓶颈，从基础任务到高难度任务，平均成功率从17.5%跌到10.3%。特别是动态画面感知——当屏幕上有内容在实时变化时，几乎所有AI都不知所措。决策能力在高难度场景中也出现了崩溃，大多数开源模型在需要反思和纠错的任务中跌入个位数，说明它们本质上还是在执行预设脚本，一旦遭遇意外情况就束手无策。

五、稳定性测试：换个皮肤就不认识了

稳定性评测子集的结果揭示了另一个令人不安的现实。

研究团队给20道基础题分别出了四种变体，最终统计每个AI能否在全部五种条件下都答对同一道题。这个叫做"稳定通过率"的指标，代表的是AI在轻微的条件变化下是否依然可靠。结果是：绝大多数模型的稳定通过率为零。即使是最强的Gemini-3-Pro组合，稳定通过率也只有15%。GPT-5.1组合是5%，其余全部是0%。

这意味着，哪怕只是把指令从英文翻成中文，或者把手机界面切换成深色模式，又或者换成平板横屏显示，本来就有不稳定通过概率的任务，就彻底做不到了。其中影响最大的是平板横屏模式——很多AI在竖屏手机布局上训练出来，一换成横版平板布局，界面元素的位置关系完全变了，AI就彻底迷路。这暴露出一个根本问题：现有AI的"能力"更像是对特定视觉模式的记忆，而不是真正理解了界面背后的逻辑。

六、算力开销：多想一步要付出多大代价

研究团队还测量了每个AI在完成任务时消耗的计算资源，用输出的文字令牌数量来衡量（这也是决定使用商业AI时API费用高低的关键指标）。

在单模型方案里，UI-Venus-72B（720亿参数的大模型）消耗了85万个令牌，而GPT-5.1只消耗了16.75万个令牌，每一步平均只用54.6个令牌，是所有模型里最经济的，暗示它在处理视觉输入时用了更高效的压缩方式。

最引人注目的开销来自"多智能体框架"——这是一种让AI通过内部多轮讨论和反思来提升效果的方案，由Mobile-Agent-v3加GUI-Owl-7B实现。这套方案消耗了164万个令牌，每步平均438.7个，是单独使用GUI-Owl-7B的三倍。这说明"让AI多想几步"会带来巨大的计算开销，对于需要在手机上实时运行的边缘部署场景来说，这是一个必须认真对待的工程挑战。

说到底，这项研究戳穿了一个流行的神话：那些在测评排行榜上大放异彩的AI手机助手，其实并没有我们想象的那么能干。旧式考试太简单，太像教科书上的标准题，而真实的用户需求复杂、模糊、充满干扰和意外。蚂蚁集团这套考试框架，相当于第一次把AI助手放到了接近真实的"工作场景"里来考核，结果自然原形毕露。

更有价值的是能力诊断框架。知道AI"考了15分"不如知道AI"在记忆和感知方面存在根本性缺陷"——后者才能告诉研究者下一步该怎么改进。这就像是从"你这次考试不及格"升级到"你的阅读理解和长篇综合题需要重点补强"，指导意义天壤之别。

对于普通用户来说，这项研究传递的信息很实际：目前市面上的AI手机助手，在简单的单步操作上确实有用，但如果你指望它帮你完成一件跨越多个步骤、需要在不同App之间来回切换的复杂任务，出错的概率相当高。在AI手机助手真正可靠地进入我们的日常生活之前，还有相当长的路要走。

Q&A

Q1：VenusBench-Mobile和AndroidWorld这类老测评基准的区别是什么？

A：AndroidWorld等旧基准主要围绕某款App的具体功能出题，题目路径固定，AI只要按预设步骤操作就能得高分，但这和真实用户的使用场景差距很大。VenusBench-Mobile从用户真实需求出发设计题目，涵盖模糊指令、冲突处理、多轮对话、动态界面感知等十大类场景，并加入了深色模式、平板横屏、中文指令等变体测试，更贴近实际使用中的复杂情况。

Q2：PUDAM框架具体是如何帮助诊断AI问题的？

A：PUDAM把AI需要的核心能力拆分成感知、理解、决策、操作、记忆五个维度，每个维度分四个难度级别。当AI做某道题失败时，可以对照这个框架判断是哪个维度出了问题。比如AI在浏览多页信息后忘记之前读到的内容，就属于记忆维度的高难度级别缺陷，而不只是笼统地"失败了"。这种诊断方式能给AI研究者提供明确的改进方向。

Q3：为什么AI手机助手在平板横屏模式下成功率会大幅下降？

A：现有的AI手机助手大多在竖屏手机的界面截图上训练，学到的更多是对特定视觉布局的记忆，而非对界面逻辑的真正理解。一旦切换到平板横屏模式，同样的App界面元素位置、比例和排列方式都会发生变化，AI就像在一个重新摆放了家具的房间里找东西，很容易迷路。这暴露出当前AI缺乏对界面结构的抽象理解能力。