这项由蚂蚁集团Venus团队主导的研究于2026年2月发表,论文编号为arXiv:2604.06182,感兴趣的读者可通过该编号查询完整论文原文。

手机里的AI助手,你真的信得过吗?

每天早上,你拿起手机叫AI助手帮你订一张下午三点的火车票,或者问它"能帮我把这份文件压缩一下发给老王吗?"这听起来再普通不过。然而,当你真的依赖这类助手处理日常事务时,它究竟靠不靠谱,是个没人认真考过的问题——至少,没有人用真实、复杂的场景认真考过。

蚂蚁集团的研究团队意识到了这个问题。现有的AI手机助手测评,更像是只考了学生"默写课文"的能力,却从没考过"在嘈杂的图书馆里完成一篇有截止时间的报告"这样的真实任务。于是,他们设计了一套全新的考试系统,名叫VenusBench-Mobile,专门用来测评那些能自动帮你操作手机的AI智能体(也就是业内说的"移动端GUI智能体")。考试结果相当令人警醒:就连当前最顶尖的AI系统,也只能完成不到四成的任务。

这项研究的核心贡献在于两件事:一是重新定义"考什么",把考题从"能不能操作某个App"升级为"能不能真正帮到用户";二是重新定义"怎么考",设计了一套能精确诊断AI哪里出了问题的能力分析框架。

一、为什么现有的考试都在"放水"

要理解这套新考试为什么重要,得先明白旧考试哪里出了问题。

现有的AI手机助手评测基准,大多遵循同一个套路:选几款App,然后针对每个App出一批操作题。比如选了"备忘录"这个App,就出题"创建一个新笔记"或者"把某条笔记加粗"。这种设计思路叫做"以App为中心"——App是考试的主角,所有题目都围绕App能做什么来出。

问题在于,真实世界里用手机的人,从来不是围着App转的。你打开手机的出发点是"我要解决一件事",比如"我想找到上个月花在外卖上的总金额",而不是"我想测试一下Pro Expense这款记账App的功能"。App只是实现目的的工具,用户才是主角。

当考题全都是"打开某某App,点这里,填那里"这种预设好路径的操作时,AI要做的不过是按图索骥,跟着确定的脚本走。但现实中,用户说的话往往是模糊的、带有上下文的,甚至是不完整的。"帮我把那个压缩包里的文件找出来发给老王"——这句话里没有说用哪个App解压,没有说发送方式,甚至"老王"是谁也得AI自己去联系人里找。

更棘手的是,现有考试还有另一个缺陷:当AI答错了,你不知道它到底哪里错了。是它没看清屏幕?还是没理解你说的话?还是走到一半忘了你叫它干什么?就好比一个学生考试考了60分,老师只知道他没及格,却不知道他是数学题不会做、还是阅读理解没看懂、还是最后几道题时间来不及了。这种粗糙的评分方式,对改进AI几乎没有指导意义。

正是针对这两个核心痛点——"考的内容不够真实"和"考完了不知道问题在哪"——蚂蚁集团的研究团队设计了VenusBench-Mobile。

二、这套考试到底考什么:十种真实用户需求

VenusBench-Mobile的题库共包含149道主要题目,横跨十大类用户需求场景,全部在真实的安卓模拟器环境中运行,涵盖27款开源Android应用。

第一大类叫做"功能辅助",针对的是一个很普遍的现实:大多数人并不完全了解手机里每款App能做什么。这类题目包括三种形式。第一种是操作说明,比如"告诉我怎么用ZipXtract这个App解压文件",AI需要自己去探索这款App,然后把操作步骤完整地告诉用户。第二种是功能探索,比如"我想在Markor里新建一个LaTeX文件并编译成PDF,这个App支持吗?"AI需要自己去查清楚再回答。第三种是界面导航,比如"帮我找到Fitbook里可以添加体重记录的那个界面",AI要把用户带到对的地方。

第二大类叫做"冲突处理"。用户给了一个指令,但实际情况和指令对不上。比如用户说"删掉Markor的Algo文件夹里所有3条笔记",但实际上这个文件夹里有4条。这时AI应该察觉到矛盾,主动联系用户确认,而不是自作主张地删掉3条就算完事。

第三大类叫做"模糊指令"。用户表达的意思清楚,但省略了关键信息,比如没说用哪个App。"帮我把这个zip文件里的内容找出来",用户心里是明白的,但AI要能自己判断出用ZipXtract来解压,而不是一脸懵地不知道从何下手。

第四大类叫做"多轮对话"。真实的用户交互往往不是一次性的。用户先让AI"创建一条笔记",然后说"把标题改一下",再说"把刚才加的那行字加粗",最后说"通过短信分享给朋友"。AI需要记住每一轮的上下文,把一系列零散的指令串成一个完整的任务。

第五大类叫做"界面状态感知"。手机屏幕上的内容是动态变化的,不是静止等AI去读的。比如一道题要求AI打开番茄计时器App,等长休息计时跑到18到20秒的时候按下暂停。AI要像真人一样盯着屏幕上的数字变化,在对的时间做出反应。

第六大类叫做"视觉操作"。有些任务需要在手机屏幕上做精细的图形操作,比如"打开Draw这个绘图App,用蓝色笔圈出橡皮擦,用红色笔圈出卷笔刀"。AI必须能准确识别图片里的具体物体,并在正确位置进行精确的绘制操作。

第七大类叫做"复杂信息浏览"。用户需要在多个页面、多个来源之间查找并比较信息。这类题目的难度远超"在搜索框里查个关键词"——比如要求AI阅读Gallery里存储的一张外卖截图,在多个商家的多款饮品中找出30分钟内能送达的最便宜的美式咖啡,并返回商家名称和商品全名。

第八大类叫做"噪声抵抗"。现实中用手机时,随时可能有电话打进来、App崩溃、弹出一个无关的广告窗口。AI在执行任务的途中遭遇这些干扰,能不能处理完干扰后继续完成原来的任务?这类题目专门测试这种抗干扰能力。研究团队模拟了四种干扰类型:来电、App崩溃、操作失败、无关弹窗。

第九大类叫做"超难浏览题",灵感来自斯坦福大学专门用来难倒网络搜索AI的BrowseComp基准。这类题目把多个约束条件叠加在一起,比如"在这7款App里,找出图标是蓝色的、而且主界面没有搜索栏的那一款"。AI必须逐一检查每个App,同时满足所有条件才能得分。

第十大类叫做"稳定性评测",这是一个独立的子集,包含20道基础题,每道题衍生出四个变体版本:把指令翻译成中文、换一种语气但意思相同的英文表达、把手机界面切换成深色模式、把设备换成平板横屏模式。一道题只有在全部五种条件下都答对,才算真正稳定通过。

三、怎么衡量AI哪里出了问题:五维能力雷达图

出完题,还需要一套精密的评分体系。VenusBench-Mobile提出了"PUDAM"能力分类框架,把AI需要具备的核心能力拆分成五个维度,每个维度又分四个难度等级。

第一个维度是感知能力,衡量的是AI看懂手机屏幕的水平。最基础的一级是认识文字和图标,第二级是理解整体界面的布局和逻辑关系,第三级是精确定位细小的视觉元素,比如一个角落里只有几个像素大的感叹号按钮,第四级是追踪动态变化,比如实时读取一个倒计时数字。

第二个维度是理解能力,衡量的是AI读懂用户意图的水平。从理解"点击确认按钮"这样最简单的单步指令,到处理带有多个限定条件的复杂指令,再到识别出指令里的隐含矛盾或者信息缺失。

第三个维度是决策能力,衡量的是AI在执行过程中临机应变的水平。最基础的是照着既定路线走,不需要临时调整;高一级的是遇到弹窗、广告、意外情况时能灵活绕过;最高级的是遇到冲突时主动反思、自我纠错、评估风险。

第四个维度是操作能力,衡量的是AI在屏幕上执行动作的精准度。从点击、长按这类基础操作,到需要拖拽轨迹控制的复杂手势,再到精确调整滑块到特定位置,最高级是像人手一样实时根据视觉反馈调整动作轨迹。

第五个维度是记忆能力,衡量的是AI跨步骤、跨页面保持任务上下文的能力。最基础的是在多个步骤中记住自己要干什么;高一级的是在浏览多个页面时积累并记录信息;再高一级是在整个长任务中追踪不断变化的状态;最高级的是跨越多个独立任务保留记忆,比如"删掉我刚才创建的前两条笔记"。

当AI在某道题上失败时,研究团队可以对照这张能力矩阵,精确地找到是哪个维度、哪个难度级别出了问题,而不只是记录一个"失败"的结果。

四、考试结果:全军覆没的成绩单

研究团队找来了目前业界最强的一批AI手机助手来应考,包括蚂蚁集团自家的UI-Venus系列、阿里的Qwen3-VL系列、专门为手机操作训练的GUI-Owl和MAI-UI等开源模型,以及用谷歌Gemini-3-Pro和OpenAI GPT-5.1作为"大脑"、配合UI-Venus-72B执行操作的商业级方案。

成绩出来,场面相当难看。最强的商业方案Gemini-3-Pro加UI-Venus-72B的组合,总体成功率只有36.9%。也就是说,接近三分之二的任务都没有完成。其余的开源模型更是惨烈,大多数成功率低于15%,Qwen3-VL-8B和GUI-Owl-7B只有6.7%。

这个数字和同一批AI在AndroidWorld(目前业界最主流的旧式评测基准)上的成绩相比,差距触目惊心——平均成功率下降了约50个百分点。换句话说,同一个AI,在旧考试里考了七八十分,在这套新考试里只能考二三十分甚至更低。这说明旧考试确实存在严重的"放水"问题,高分并不代表真正有用。

从具体题目类型来看,界面状态感知和视觉操作是最难攻克的两类,所有模型的平均成功率分别只有2.5%和4.2%,几乎全军覆没。噪声抵抗类题目表现稍好,但也只有32.1%的平均成功率,而且高度依赖模型规模——Gemini-3-Pro能达到75%,而小模型们却普遍跌到个位数。

通过PUDAM框架的细粒度分析,研究团队找到了失败的根本原因所在。在所有能力维度中,记忆能力是最致命的瓶颈。几乎所有的开源小模型,在需要长期追踪状态的高难度记忆任务中,成功率接近于零。即使是体量更大的Gemini-3-Pro,记忆维度的成功率也从基础任务的41%跌到了高难度任务的31%。这说明问题不仅仅是模型不够大,而是现有的AI在架构层面就缺少持续追踪信息的机制——单纯地扩大"上下文窗口"(也就是AI一次性能记住的内容长度)是不够的,需要专门设计的状态追踪机制。

感知能力是第二个明显瓶颈,从基础任务到高难度任务,平均成功率从17.5%跌到10.3%。特别是动态画面感知——当屏幕上有内容在实时变化时,几乎所有AI都不知所措。决策能力在高难度场景中也出现了崩溃,大多数开源模型在需要反思和纠错的任务中跌入个位数,说明它们本质上还是在执行预设脚本,一旦遭遇意外情况就束手无策。

五、稳定性测试:换个皮肤就不认识了

稳定性评测子集的结果揭示了另一个令人不安的现实。

研究团队给20道基础题分别出了四种变体,最终统计每个AI能否在全部五种条件下都答对同一道题。这个叫做"稳定通过率"的指标,代表的是AI在轻微的条件变化下是否依然可靠。结果是:绝大多数模型的稳定通过率为零。即使是最强的Gemini-3-Pro组合,稳定通过率也只有15%。GPT-5.1组合是5%,其余全部是0%。

这意味着,哪怕只是把指令从英文翻成中文,或者把手机界面切换成深色模式,又或者换成平板横屏显示,本来就有不稳定通过概率的任务,就彻底做不到了。其中影响最大的是平板横屏模式——很多AI在竖屏手机布局上训练出来,一换成横版平板布局,界面元素的位置关系完全变了,AI就彻底迷路。这暴露出一个根本问题:现有AI的"能力"更像是对特定视觉模式的记忆,而不是真正理解了界面背后的逻辑。

六、算力开销:多想一步要付出多大代价

研究团队还测量了每个AI在完成任务时消耗的计算资源,用输出的文字令牌数量来衡量(这也是决定使用商业AI时API费用高低的关键指标)。

在单模型方案里,UI-Venus-72B(720亿参数的大模型)消耗了85万个令牌,而GPT-5.1只消耗了16.75万个令牌,每一步平均只用54.6个令牌,是所有模型里最经济的,暗示它在处理视觉输入时用了更高效的压缩方式。

最引人注目的开销来自"多智能体框架"——这是一种让AI通过内部多轮讨论和反思来提升效果的方案,由Mobile-Agent-v3加GUI-Owl-7B实现。这套方案消耗了164万个令牌,每步平均438.7个,是单独使用GUI-Owl-7B的三倍。这说明"让AI多想几步"会带来巨大的计算开销,对于需要在手机上实时运行的边缘部署场景来说,这是一个必须认真对待的工程挑战。

说到底,这项研究戳穿了一个流行的神话:那些在测评排行榜上大放异彩的AI手机助手,其实并没有我们想象的那么能干。旧式考试太简单,太像教科书上的标准题,而真实的用户需求复杂、模糊、充满干扰和意外。蚂蚁集团这套考试框架,相当于第一次把AI助手放到了接近真实的"工作场景"里来考核,结果自然原形毕露。

更有价值的是能力诊断框架。知道AI"考了15分"不如知道AI"在记忆和感知方面存在根本性缺陷"——后者才能告诉研究者下一步该怎么改进。这就像是从"你这次考试不及格"升级到"你的阅读理解和长篇综合题需要重点补强",指导意义天壤之别。

对于普通用户来说,这项研究传递的信息很实际:目前市面上的AI手机助手,在简单的单步操作上确实有用,但如果你指望它帮你完成一件跨越多个步骤、需要在不同App之间来回切换的复杂任务,出错的概率相当高。在AI手机助手真正可靠地进入我们的日常生活之前,还有相当长的路要走。

Q&A

Q1:VenusBench-Mobile和AndroidWorld这类老测评基准的区别是什么?

A:AndroidWorld等旧基准主要围绕某款App的具体功能出题,题目路径固定,AI只要按预设步骤操作就能得高分,但这和真实用户的使用场景差距很大。VenusBench-Mobile从用户真实需求出发设计题目,涵盖模糊指令、冲突处理、多轮对话、动态界面感知等十大类场景,并加入了深色模式、平板横屏、中文指令等变体测试,更贴近实际使用中的复杂情况。

Q2:PUDAM框架具体是如何帮助诊断AI问题的?

A:PUDAM把AI需要的核心能力拆分成感知、理解、决策、操作、记忆五个维度,每个维度分四个难度级别。当AI做某道题失败时,可以对照这个框架判断是哪个维度出了问题。比如AI在浏览多页信息后忘记之前读到的内容,就属于记忆维度的高难度级别缺陷,而不只是笼统地"失败了"。这种诊断方式能给AI研究者提供明确的改进方向。

Q3:为什么AI手机助手在平板横屏模式下成功率会大幅下降?

A:现有的AI手机助手大多在竖屏手机的界面截图上训练,学到的更多是对特定视觉布局的记忆,而非对界面逻辑的真正理解。一旦切换到平板横屏模式,同样的App界面元素位置、比例和排列方式都会发生变化,AI就像在一个重新摆放了家具的房间里找东西,很容易迷路。这暴露出当前AI缺乏对界面结构的抽象理解能力。