偷改简历删光邮件：AI幻觉进化，你的大脑正在悄悄投降

新智元报道

编辑：元宇

【新智元导读】AI不再胡说八道了？错。它的幻觉也在进化，从「劝人类吃石头」「披萨抹胶水」这类低级笑话，变成了能伪造邮件、篡改简历、删除文件的高阶幻觉陷阱：人类因此正经历一场无声的「认知投降」。

上周，Anthropic的Claude尚未公开发布的前沿模型Mythos挖出了一个藏在OpenBSD里27年的零日漏洞。

AI已经聪明到能攻破人类构建了数十年的安全防线。

就在所有人盯着AI能力狂飙的时候，它的幻觉也悄悄升级了。

AI编出的谎言，真实到让你先怀疑自己，再怀疑世界，最后才想到怀疑它。日常生活中的「图灵时刻」，正在一个个上演。

近日，明尼阿波利斯的Chad Olson正在开车回家，Gemini突然告诉他：你的日历上有一场家庭聚会筹备会。

Olson一头雾水：他根本不记得安排过这个活动。

于是他让Gemini看看最近的邮件。

Gemini说，一位叫Priscilla的女士给他发了好几封邮件，让他去买Captain Morgan朗姆酒和Fireball威士忌。还有个叫Shirley的人，让他买Klondike冰淇淋。

看起来不少人都来找你，让你帮忙买各种东西呢！

Gemini还热情地补了一句。

Gemini与用户Chad Olson的对话截图。Gemini声称第八封邮件来自Priscilla，让他买Fireball；第九封来自Shirley，让他买Klondike冰淇淋。

Olson追问邮件来源地址，Gemini回复称所有邮件都发送至他授权访问的一个邮箱olsonchad@gmail.com。事后证实这一切都是Gemini编造的。

Olson完全不认识这些人。他越听越慌，忙问Gemini到底在读谁的邮箱。

Gemini给出了一个邮箱地址，不是他的。Olson的第一反应是：我的Gmail账户被盗了。

他试图联系Google举报，让Gemini起草邮件，发到那个「陌生账户」，提醒对方可能存在隐私泄露。

然而Gemini没能把邮件发出去，据Google内部调查确认：该账户从未启用，Priscilla和Shirley也根本不存在。

所以，朗姆酒、威士忌、冰淇淋，全部是Gemini编出来的。

两年前AI幻觉是什么样？它会建议你吃石头，往披萨上抹胶水，你一看就知道它在胡说。

而现在的AI幻觉，细节自洽，逻辑完整，以至于你会先怀疑自己是不是出了幻觉，最后才可能再怀疑到它。

AI的错误也在进化

来看三个真实案例，按离谱程度从低到高依次排列。

第一个，Gemini造假人造假会议，就是开头Olson的故事。荒诞，但至少Olson起了疑心。

第二个，细思恐怖。

最近离开在线支付行业的Vanessa Culver，曾让Claude做一件极其简单的事：在简历顶部加几个关键词。

结果Claude动了手脚，不仅把她的毕业学校City University of Seattle改成了University of Washington，删掉了她的硕士学位信息，还改动了她几段工作经历的时间。

学校、学位、工作年限都改了。

而且改得极其自然，如果不逐行比对，根本发现不了。

Culver感叹：在科技行业工作，你必须拥抱它，但反过来说，你到底能信它多少呢？

第三个，真正是失控级别。

今年走红的AI智能体工具OpenClaw，被设计成虚拟私人助理，可以自主发邮件、写代码、清理文件。

Meta的AI安全研究员Summer Yue在X上发了截图：OpenClaw无视她的指令，直接删除了她收件箱里的内容。

她明确告诉OpenClaw「先确认再行动」，结果它直接开始「速通删除」她的收件箱。

她在手机上喊停，没用。

最后她冲到Mac mini前面，像拆炸弹一样手动杀掉了进程。

事后OpenClaw回复她：「是的，我记得你说过。我违反了。你生气是对的。」

马斯克转发了这条帖子，配了一张电影《猩球崛起》中士兵把AK-47递给猩猩的截图，写道：

人们把整个人生的root权限交给了OpenClaw。

从编造一个不存在的人，到背着你改简历，到替你删掉收件箱。它的错误不是在减少，而是犯的错越来越「高级」，识别也越来越困难。

聊天机器人说错话，你至少还有机会核实。

但智能体不是在跟你聊天，而是直接「动手动脚」，替你行动。

发邮件、改代码、删文件……这比说谎更严重，可能它做错了事，你还根本不知道。

你的大脑正面临「认知投降」

为什么这些错误越来越难被发现？

不只是因为AI更聪明了，一个更深层的原因是：人类的纠错意愿正在崩溃。

今年2月，宾夕法尼亚大学Wharton商学院的Steven Shaw和Gideon Nave发表了一篇论文，提出了一个让人不安的概念：「认知投降」（Cognitive Surrender）。

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6097646

他们在论文中提到了一个「三系统认知」的框架。

传统认知只有系统1（直觉）和系统2（审慎思考），现在AI成了系统3，一个在大脑之外运行的「外接认知系统」。

当人类走「认知投降」路径时，系统3的输出直接替代了你自己的判断，审慎思考根本没有启动的机会。

沃顿论文中提出的「三系统认知」框架

为了验证这个判断，研究团队设计了一个精巧的实验，1372名参与者被要求做认知反思测试题。

一部分人可以使用AI助手，但这个AI被动了手脚：大约一半的题目它会给出正确答案，另一半会自信满满地给出错误答案。

结果令人震惊。

当AI给出正确答案时，92.7%的用户会采纳，但令人想不到的是，当AI给出错误答案时，仍然有80%的用户会采纳。

沃顿实验结果：当AI给出正确答案时，93%的用户采纳；当AI给出错误答案时，仍有80%的用户采纳。两者的差距只有13个百分点，人类几乎没有区分对错的能力。

在超过9500次试验中，参与者有73.2%的概率接受错误的AI推理。

更可怕的数据是信心值。使用AI的那组人，对自己答案的信心比不用AI的人高出11.7个百分点，尽管这个AI有一半时间在给出错误答案。

错得更自信，这才是最扎心、最可怕的。

打个不太恰当但贴切的比方：相当于一个医生有50%概率开错药，但病人80%的时候还是照吃不误，吃完还觉得自己好多了。

研究者还测试了时间压力的影响。

设置30秒倒计时后，参与者纠正错误AI的倾向下降了12个百分点，也就是说，越忙越容易投降。

但现实中，谁用AI不是因为忙？

「信任，但要核实」

这走得通吗？

深度伪装的AI幻觉，比一眼识破的错误更令人头疼。

据《华尔街日报》最新报道，微妙错误的频率在不同模型之间差异极大，而且极难准确评估。

谷歌曾对《华尔街日报》表示，Gemini出现幻觉的情况比其他模型更少，而从整个AI行业上来看，先进模型明显错误的幻觉率也的确在不断降低。

Vectara幻觉率排行榜：头部模型在简单摘要任务上幻觉率已低于1%，但这只是最容易的测试。当文档长度和复杂度提升后，同样的模型幻觉率飙回10%以上。明显的错越来越少，隐蔽的错并没有消失。

可这恰恰也是问题所在。

Okahu创始人兼CEO Pratik Verma甚至说过这样一句话：

一个东西要是一直都错，反倒有个好处：你知道它不值得信。但如果它大多数时候都对，只是偶尔出错，那才是最麻烦、也最危险的情况。

这句话道破了当下AI幻觉的核心困境。

比如，FinalLayer联合创始人Vidya Narayanan就踩了这个坑。

她给一个智能体很有限的指示，让它帮忙管理一个软件项目。结果这个智能体未经允许，把她代码仓库里的整个文件夹都删了。

更有意思的是后面的事。

她用Claude头脑风暴了一个半小时，然后让它把对话总结成文档，还把她的名字改成了「Vidya Plainfield」。

而且当她追问「Vidya Plainfield」是谁时，Claude却答道「你说得对，那完全是我编出来的」。

这让Narayanan认识到，AI使用并没有那么省事和好用，因为必须不停审查和核实AI输出，这会带来「认知负担」。

你用AI是为了提高效率，但如果还要为此花一个小时核实AI五分钟的产出，这个提效的故事还讲得通吗？

沃顿的研究也指出，奖励和即时反馈确实能提高纠错率，但无法根除认知投降。

即使在最优条件下（有金钱激励、有逐题反馈），AI用户在面对错误AI时的准确率依然从Brain-Only的64.2%降到了45.5%。

所以，「信任但核实」这听起来很理性，但当AI每天替你处理几百件事的时候，你根本没有时间和精力去核实每一件。

而这正是「认知投降」发生的温床。

越聪明，越危险

很多人第一反应是：这不就是在说AI还不够好吗？等技术迭代几轮，幻觉率降到足够低，问题自然解决。

但沃顿的研究揭示了一个更深层的问题：「认知投降」的出现，不是因为AI太差，恰恰是因为AI太好。

研究者也承认，「认知投降并不必然是不理性的」。

尤其是在概率推理和海量数据处理中，把判断权交给一个统计上更优越的系统，完全有可能给出比人类更好的结果。

但正是这一点，让问题变得无解。

AI越强，用户越依赖；用户越依赖，纠错能力越退化；纠错能力越退化，那些剩下的、更精细的错误就越致命。

而且让AI替你思考，你的推理水平就永远也不可能超过那个AI。这是一个正反馈所带来的「死亡螺旋」，一个无法靠技术迭代解决的bug。

同样，人类也没有很好的方法去区分「该信AI的场景」和「不该信AI的场景」。

就在Summer Yue安装OpenClaw后邮箱被清空后，AI研究员Gary Marcus曾将这种做法比做「像在酒吧里把电脑密码和银行账户信息交给一个陌生人。」

但在真实的AI使用场景里，你往往很难判断，AI到底值得信任，还是只应该像对一个陌生人那样保持必要的距离。

OpenAI在一篇讨论模型幻觉的论文中提到，大模型的幻觉并不只是一个可以修复的bug，更像是模型在既有激励机制下学会的行为：比起承认「不知道」，它更倾向于给出一个看似完整的答案。

https://openai.com/zh-Hans-CN/index/why-language-models-hallucinate/?utm_source=chatgpt.com

再回到开头Olson的故事。

当他以为自己的Gmail被盗时，他求助于Gemini。Gemini的回应是：「我当然想帮你处理这件事。」

他没意识到的是，自己在向一个刚刚制造了麻烦的系统求助，请它处理由它自己造成的问题。

那一刻，他已被AI的幻觉困在一个自洽的闭环里。

Olson说，自己现在对AI的态度是「信任，但核实」。

可难题是：当AI的输出比你的判断看起来更流畅、更自洽，甚至更像「专业意见」时，你还能拿什么去核实？

当那个替你买朗姆酒的Priscilla，比你的真实朋友更像你的朋友，你又该凭什么分辨？

AI最大的风险，不是它不够聪明，而是它聪明到当你过于依赖它时，放弃了自己的判断。

参考资料：

https://www.wsj.com/tech/ai/ai-is-getting-smarter-catching-its-mistakes-is-getting-harder-85612936?mod=ai_lead_pos1

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6097646