21世纪经济报道记者 彭新

当地时间4月8日,Meta Platforms(纳斯达克:META)旗下超级智能实验室(Meta Superintelligence Labs,下称MSL)发布多模态推理模型Muse Spark系列,并同步上线该系列第一款模型。

Meta将Muse Spark称为公司“有史以来最强大的模型”。该模型支持工具使用、视觉思维链以及多智能体编排,主打多模态感知与推理能力。Meta首席人工智能官、MSL负责人汪滔(Alexandr Wang)介绍,过去九个月,MSL团队“从一片空地”上重建了整条AI系统框架和算力基础设施,推翻了过往的诸多做法。

这是MSL自2025年6月成立以来发布的首个正式产品,也是Meta在人工智能战略大幅调整后向外界交出的第一份答卷。消息公布当日,Meta股价收涨6.50%,报612.42美元/股。

与Meta此前发布的Llama系列模型不同,Muse Spark为闭源模型。目前用户可通过网站及Meta AI应用程序使用该模型,但API(应用程序接口)尚未全面开放,仅向少数客户提供预览版。至于Muse Spark未来是否开源,汪滔仅表示其后续版本“计划开源”,但并未给出时间表。

在效率方面,Meta表示,通过改进模型架构、优化算法及数据清洗,Muse Spark的算力效率大幅提升——与上一代旗舰模型Llama 4 Maverick相比,Muse Spark达到相同能力所需算力不足后者十分之一。

从Meta公布的内部基准测试结果来看,Muse Spark在多模态理解、健康问答和智能体任务方面的表现具有竞争力,但尚未实现全面超越竞争对手的头部模型。例如,在多模态基准测试CharXiv Reasoning中,Muse Spark思考模式得分为86.4,超过GPT-5.4的82.8和Gemini 3.1 Pro High的80.2,但在其他多个多模态基准测试中,其得分低于Gemini 3.1 Pro High。

在智能体能力方面,Muse Spark思考模式在DeepSearchQA测试中得分74.8,超过Gemini 3.1的69.7和GPT-5.4的73.6,GDPval-AA Elo测试得分亦高于Gemini 3.1和Grok 4.2。在编程能力关键指标SWE-Bench Verified等多项基准测试中,Muse Spark的得分接近或低于Claude Opus 4.6、Gemini 3.1和GPT-5.4。

Muse Spark还提供“沉思模式(Contemplating mode)”,该模式通过编排多个智能体进行并行推理。沉思模式的Muse Spark在“人类终极考试(Humanity’s Last Exam)”中取得了58.4%的成绩,略逊于GPT 5.4 Pro的58.7%,在“前沿科学研究(Frontier Science Research)”中取得了38.3%的成绩,高于GPT 5.4 Pro的36.7%。

在第三方平台Artificial Analysis的综合智能能力排名上,Muse Spark目前列第四,前三名依次为谷歌Gemini 3.1 Pro、OpenAI GPT-5.4和Claude Opus 4.6。

独立评测机构Vals AI在Muse Spark公开发布前对其进行了测试。该机构首席执行官雷恩·克里希南(Rayan Krishnan)认为,Meta从Llama 4到Muse Spark实现了模型能力的显著提升,Meta已成为一家具备竞争力的AI实验室,若能维持当前进步速度,有望在较短时间内推出业内领先的模型。但他同时指出,编程能力仍是Muse Spark的明显短板,预计这将是Meta后续重点攻关的方向。

Muse Spark也是Meta过去一年AI战略剧烈转型的成果。

2023年至2024年间,Meta凭借Llama 1、2、3系列开源模型在AI社区赢得广泛认可。这些模型性能接近OpenAI同期的旗舰模型,一度成为学术领域和开发者社区的重要基础设施。

但转折发生于2025年4月,Meta发布开源多模态模型Llama 4后遭到外界质疑,多名测试者指出模型针对特定排行榜进行优化“刷榜”,实际性能甚至不及马斯克旗下xAI发布的上一代模型。Meta后来承认了针对基准测试的特定优化行为。

与此同时,Meta首席AI科学家杨立昆(Yann LeCun)长期质疑主流大语言模型(LLM)路线,认为其无法通向通用人工智能,杨立昆主张基于视频训练的世界模型(World Model),要让模型与人类一样、通过物理直觉的方式来理解世界,这一立场被部分人士认为其令Meta在大模型竞争中贻误时机。

多重压力之下,Meta启动了大规模AI团队重组。2025年6月,Meta宣布以约143亿美元获得数据标注初创公司Scale AI 49%股份,并将时任Scale AI创始人兼首席执行官汪滔招入麾下。随后,扎克伯格发布内部信,将基础研究、产品团队及FAIR整合成为新的MSL。扎克伯格给新实验室定下的目标是:下一代AI大模型在2026年前后达到行业先进水平,未来要做服务个人的超级智能体(Agent),由汪滔与GitHub前CEO Nat Friedman领导。

Meta首席执行官扎克伯格还亲自出马招揽AI人才,据报道曾在其位于加州帕洛阿尔托和太浩湖的私宅中接待研究人员,并开出高达1亿美元的薪资待遇。最终,MSL组建了一支由50余名研究人员、工程师及其他AI从业者构成的核心团队。

然而,人员大规模涌入也带来了摩擦。2025年10月,Meta被曝计划裁减其人工智能团队约600个职位,多名Meta早期AI员工在此期间离职,部分系主动跳槽,另有部分人员在2025年10月公司重组中遭裁员。去年底,杨立昆宣布离职,这一人事变动被外界普遍视为Meta彻底拥抱主流LLM路线的标志性信号。

对于新模型,扎克伯格曾在1月份的财报电话会议表示,预计首批模型会表现不错,但更重要的是,新模型将展示Meta所处的快速发展轨道,随着新模型的不断发布,预计Meta将在年内稳步推进技术前沿。

Meta长远目标是构建其所谓的“超级智能”(superintelligence),这是一种超越人类的智能技术,能为Meta超10亿用户提供处理各类任务的个人智能体。

而在资本市场方面,Meta在AI基础设施领域的投入规模在美国科技公司中属于最为激进之列。该公司此前预告,2026年资本开支可能相比上年翻一倍,预计在1150亿美元至1350亿美元之间。

目前来看,Meta虽已凭借Muse Spark重新进入第一梯队的竞争视野,但距离全面领先仍有明显差距,大模型赛道的竞争在2026年正愈发激烈。

4月7日,Anthropic披露最新大模型Claude Mythos Preview,号称能在没有任何人类干预的情况下,自主发现并利用各大主流操作系统和Web浏览器中的复杂漏洞。据Anthropic发布的技术博客,在体现真实漏洞利用能力的测试中,Claude Mythos Preview准确率大幅提升。Anthropic还表示,新模型有望重塑网络安全领域。

此外,市场传言显示,OpenAI的GPT-6可能在4月推出。与此同时,DeepSeek于4月8日低调更新了对话界面,新增“快速模式”与“专家模式”选项,被部分观察人士解读为DeepSeekV4版本上线的前奏。