新智元报道
编辑:元宇
【新智元导读】AI不再胡说八道了?错。它的幻觉也在进化,从「劝人类吃石头」「披萨抹胶水」这类低级笑话,变成了能伪造邮件、篡改简历、删除文件的高阶幻觉陷阱:人类因此正经历一场无声的「认知投降」。
上周,Anthropic的Claude尚未公开发布的前沿模型Mythos挖出了一个藏在OpenBSD里27年的零日漏洞。
AI已经聪明到能攻破人类构建了数十年的安全防线。
就在所有人盯着AI能力狂飙的时候,它的幻觉也悄悄升级了。
AI编出的谎言,真实到让你先怀疑自己,再怀疑世界,最后才想到怀疑它。日常生活中的「图灵时刻」,正在一个个上演。
近日,明尼阿波利斯的Chad Olson正在开车回家,Gemini突然告诉他:你的日历上有一场家庭聚会筹备会。
Olson一头雾水:他根本不记得安排过这个活动。
于是他让Gemini看看最近的邮件。
Gemini说,一位叫Priscilla的女士给他发了好几封邮件,让他去买Captain Morgan朗姆酒和Fireball威士忌。还有个叫Shirley的人,让他买Klondike冰淇淋。
看起来不少人都来找你,让你帮忙买各种东西呢!
Gemini还热情地补了一句。
Gemini与用户Chad Olson的对话截图。Gemini声称第八封邮件来自Priscilla,让他买Fireball;第九封来自Shirley,让他买Klondike冰淇淋。
Olson追问邮件来源地址,Gemini回复称所有邮件都发送至他授权访问的一个邮箱olsonchad@gmail.com。事后证实这一切都是Gemini编造的。
Olson完全不认识这些人。他越听越慌,忙问Gemini到底在读谁的邮箱。
Gemini给出了一个邮箱地址,不是他的。Olson的第一反应是:我的Gmail账户被盗了。
他试图联系Google举报,让Gemini起草邮件,发到那个「陌生账户」,提醒对方可能存在隐私泄露。
然而Gemini没能把邮件发出去,据Google内部调查确认:该账户从未启用,Priscilla和Shirley也根本不存在。
所以,朗姆酒、威士忌、冰淇淋,全部是Gemini编出来的。
两年前AI幻觉是什么样?它会建议你吃石头,往披萨上抹胶水,你一看就知道它在胡说。
而现在的AI幻觉,细节自洽,逻辑完整,以至于你会先怀疑自己是不是出了幻觉,最后才可能再怀疑到它。
AI的错误也在进化
来看三个真实案例,按离谱程度从低到高依次排列。
第一个,Gemini造假人造假会议,就是开头Olson的故事。荒诞,但至少Olson起了疑心。
第二个,细思恐怖。
最近离开在线支付行业的Vanessa Culver,曾让Claude做一件极其简单的事:在简历顶部加几个关键词。
结果Claude动了手脚,不仅把她的毕业学校City University of Seattle改成了University of Washington,删掉了她的硕士学位信息,还改动了她几段工作经历的时间。
学校、学位、工作年限都改了。
而且改得极其自然,如果不逐行比对,根本发现不了。
Culver感叹:在科技行业工作,你必须拥抱它,但反过来说,你到底能信它多少呢?
第三个,真正是失控级别。
今年走红的AI智能体工具OpenClaw,被设计成虚拟私人助理,可以自主发邮件、写代码、清理文件。
Meta的AI安全研究员Summer Yue在X上发了截图:OpenClaw无视她的指令,直接删除了她收件箱里的内容。
她明确告诉OpenClaw「先确认再行动」,结果它直接开始「速通删除」她的收件箱。
她在手机上喊停,没用。
最后她冲到Mac mini前面,像拆炸弹一样手动杀掉了进程。
事后OpenClaw回复她:「是的,我记得你说过。我违反了。你生气是对的。」
马斯克转发了这条帖子,配了一张电影《猩球崛起》中士兵把AK-47递给猩猩的截图,写道:
人们把整个人生的root权限交给了OpenClaw。
从编造一个不存在的人,到背着你改简历,到替你删掉收件箱。它的错误不是在减少,而是犯的错越来越「高级」,识别也越来越困难。
聊天机器人说错话,你至少还有机会核实。
但智能体不是在跟你聊天,而是直接「动手动脚」,替你行动。
发邮件、改代码、删文件……这比说谎更严重,可能它做错了事,你还根本不知道。
你的大脑正面临「认知投降」
为什么这些错误越来越难被发现?
不只是因为AI更聪明了,一个更深层的原因是:人类的纠错意愿正在崩溃。
今年2月,宾夕法尼亚大学Wharton商学院的Steven Shaw和Gideon Nave发表了一篇论文,提出了一个让人不安的概念:「认知投降」(Cognitive Surrender)。
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6097646
他们在论文中提到了一个「三系统认知」的框架。
传统认知只有系统1(直觉)和系统2(审慎思考),现在AI成了系统3,一个在大脑之外运行的「外接认知系统」。
当人类走「认知投降」路径时,系统3的输出直接替代了你自己的判断,审慎思考根本没有启动的机会。
沃顿论文中提出的「三系统认知」框架
为了验证这个判断,研究团队设计了一个精巧的实验,1372名参与者被要求做认知反思测试题。
一部分人可以使用AI助手,但这个AI被动了手脚:大约一半的题目它会给出正确答案,另一半会自信满满地给出错误答案。
结果令人震惊。
当AI给出正确答案时,92.7%的用户会采纳,但令人想不到的是,当AI给出错误答案时,仍然有80%的用户会采纳。
沃顿实验结果:当AI给出正确答案时,93%的用户采纳;当AI给出错误答案时,仍有80%的用户采纳。两者的差距只有13个百分点,人类几乎没有区分对错的能力。
在超过9500次试验中,参与者有73.2%的概率接受错误的AI推理。
更可怕的数据是信心值。使用AI的那组人,对自己答案的信心比不用AI的人高出11.7个百分点,尽管这个AI有一半时间在给出错误答案。
错得更自信,这才是最扎心、最可怕的。
打个不太恰当但贴切的比方:相当于一个医生有50%概率开错药,但病人80%的时候还是照吃不误,吃完还觉得自己好多了。
研究者还测试了时间压力的影响。
设置30秒倒计时后,参与者纠正错误AI的倾向下降了12个百分点,也就是说,越忙越容易投降。
但现实中,谁用AI不是因为忙?
「信任,但要核实」
这走得通吗?
深度伪装的AI幻觉,比一眼识破的错误更令人头疼。
据《华尔街日报》最新报道,微妙错误的频率在不同模型之间差异极大,而且极难准确评估。
谷歌曾对《华尔街日报》表示,Gemini出现幻觉的情况比其他模型更少,而从整个AI行业上来看,先进模型明显错误的幻觉率也的确在不断降低。
Vectara幻觉率排行榜:头部模型在简单摘要任务上幻觉率已低于1%,但这只是最容易的测试。当文档长度和复杂度提升后,同样的模型幻觉率飙回10%以上。明显的错越来越少,隐蔽的错并没有消失。
可这恰恰也是问题所在。
Okahu创始人兼CEO Pratik Verma甚至说过这样一句话:
一个东西要是一直都错,反倒有个好处:你知道它不值得信。但如果它大多数时候都对,只是偶尔出错,那才是最麻烦、也最危险的情况。
这句话道破了当下AI幻觉的核心困境。
比如,FinalLayer联合创始人Vidya Narayanan就踩了这个坑。
她给一个智能体很有限的指示,让它帮忙管理一个软件项目。结果这个智能体未经允许,把她代码仓库里的整个文件夹都删了。
更有意思的是后面的事。
她用Claude头脑风暴了一个半小时,然后让它把对话总结成文档,还把她的名字改成了「Vidya Plainfield」。
而且当她追问「Vidya Plainfield」是谁时,Claude却答道「你说得对,那完全是我编出来的」。
这让Narayanan认识到,AI使用并没有那么省事和好用,因为必须不停审查和核实AI输出,这会带来「认知负担」。
你用AI是为了提高效率,但如果还要为此花一个小时核实AI五分钟的产出,这个提效的故事还讲得通吗?
沃顿的研究也指出,奖励和即时反馈确实能提高纠错率,但无法根除认知投降。
即使在最优条件下(有金钱激励、有逐题反馈),AI用户在面对错误AI时的准确率依然从Brain-Only的64.2%降到了45.5%。
所以,「信任但核实」这听起来很理性,但当AI每天替你处理几百件事的时候,你根本没有时间和精力去核实每一件。
而这正是「认知投降」发生的温床。
越聪明,越危险
很多人第一反应是:这不就是在说AI还不够好吗?等技术迭代几轮,幻觉率降到足够低,问题自然解决。
但沃顿的研究揭示了一个更深层的问题:「认知投降」的出现,不是因为AI太差,恰恰是因为AI太好。
研究者也承认,「认知投降并不必然是不理性的」。
尤其是在概率推理和海量数据处理中,把判断权交给一个统计上更优越的系统,完全有可能给出比人类更好的结果。
但正是这一点,让问题变得无解。
AI越强,用户越依赖;用户越依赖,纠错能力越退化;纠错能力越退化,那些剩下的、更精细的错误就越致命。
而且让AI替你思考,你的推理水平就永远也不可能超过那个AI。这是一个正反馈所带来的「死亡螺旋」,一个无法靠技术迭代解决的bug。
同样,人类也没有很好的方法去区分「该信AI的场景」和「不该信AI的场景」。
就在Summer Yue安装OpenClaw后邮箱被清空后,AI研究员Gary Marcus曾将这种做法比做「像在酒吧里把电脑密码和银行账户信息交给一个陌生人。」
但在真实的AI使用场景里,你往往很难判断,AI到底值得信任,还是只应该像对一个陌生人那样保持必要的距离。
OpenAI在一篇讨论模型幻觉的论文中提到,大模型的幻觉并不只是一个可以修复的bug,更像是模型在既有激励机制下学会的行为:比起承认「不知道」,它更倾向于给出一个看似完整的答案。
https://openai.com/zh-Hans-CN/index/why-language-models-hallucinate/?utm_source=chatgpt.com
再回到开头Olson的故事。
当他以为自己的Gmail被盗时,他求助于Gemini。Gemini的回应是:「我当然想帮你处理这件事。」
他没意识到的是,自己在向一个刚刚制造了麻烦的系统求助,请它处理由它自己造成的问题。
那一刻,他已被AI的幻觉困在一个自洽的闭环里。
Olson说,自己现在对AI的态度是「信任,但核实」。
可难题是:当AI的输出比你的判断看起来更流畅、更自洽,甚至更像「专业意见」时,你还能拿什么去核实?
当那个替你买朗姆酒的Priscilla,比你的真实朋友更像你的朋友,你又该凭什么分辨?
AI最大的风险,不是它不够聪明,而是它聪明到当你过于依赖它时,放弃了自己的判断。
参考资料:
https://www.wsj.com/tech/ai/ai-is-getting-smarter-catching-its-mistakes-is-getting-harder-85612936?mod=ai_lead_pos1
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6097646