Meta新模型Muse Spark上线，能力仍落后于第一梯队

21世纪经济报道记者彭新

当地时间4月8日，Meta Platforms（纳斯达克：META）旗下超级智能实验室（Meta Superintelligence Labs，下称MSL）发布多模态推理模型Muse Spark系列，并同步上线该系列第一款模型。

Meta将Muse Spark称为公司“有史以来最强大的模型”。该模型支持工具使用、视觉思维链以及多智能体编排，主打多模态感知与推理能力。Meta首席人工智能官、MSL负责人汪滔（Alexandr Wang）介绍，过去九个月，MSL团队“从一片空地”上重建了整条AI系统框架和算力基础设施，推翻了过往的诸多做法。

这是MSL自2025年6月成立以来发布的首个正式产品，也是Meta在人工智能战略大幅调整后向外界交出的第一份答卷。消息公布当日，Meta股价收涨6.50%，报612.42美元/股。

与Meta此前发布的Llama系列模型不同，Muse Spark为闭源模型。目前用户可通过网站及Meta AI应用程序使用该模型，但API（应用程序接口）尚未全面开放，仅向少数客户提供预览版。至于Muse Spark未来是否开源，汪滔仅表示其后续版本“计划开源”，但并未给出时间表。

在效率方面，Meta表示，通过改进模型架构、优化算法及数据清洗，Muse Spark的算力效率大幅提升——与上一代旗舰模型Llama 4 Maverick相比，Muse Spark达到相同能力所需算力不足后者十分之一。

从Meta公布的内部基准测试结果来看，Muse Spark在多模态理解、健康问答和智能体任务方面的表现具有竞争力，但尚未实现全面超越竞争对手的头部模型。例如，在多模态基准测试CharXiv Reasoning中，Muse Spark思考模式得分为86.4，超过GPT-5.4的82.8和Gemini 3.1 Pro High的80.2，但在其他多个多模态基准测试中，其得分低于Gemini 3.1 Pro High。

在智能体能力方面，Muse Spark思考模式在DeepSearchQA测试中得分74.8，超过Gemini 3.1的69.7和GPT-5.4的73.6，GDPval-AA Elo测试得分亦高于Gemini 3.1和Grok 4.2。在编程能力关键指标SWE-Bench Verified等多项基准测试中，Muse Spark的得分接近或低于Claude Opus 4.6、Gemini 3.1和GPT-5.4。

Muse Spark还提供“沉思模式（Contemplating mode）”，该模式通过编排多个智能体进行并行推理。沉思模式的Muse Spark在“人类终极考试（Humanity’s Last Exam）”中取得了58.4%的成绩，略逊于GPT 5.4 Pro的58.7%，在“前沿科学研究（Frontier Science Research）”中取得了38.3%的成绩，高于GPT 5.4 Pro的36.7%。

在第三方平台Artificial Analysis的综合智能能力排名上，Muse Spark目前列第四，前三名依次为谷歌Gemini 3.1 Pro、OpenAI GPT-5.4和Claude Opus 4.6。

独立评测机构Vals AI在Muse Spark公开发布前对其进行了测试。该机构首席执行官雷恩·克里希南（Rayan Krishnan）认为，Meta从Llama 4到Muse Spark实现了模型能力的显著提升，Meta已成为一家具备竞争力的AI实验室，若能维持当前进步速度，有望在较短时间内推出业内领先的模型。但他同时指出，编程能力仍是Muse Spark的明显短板，预计这将是Meta后续重点攻关的方向。

Muse Spark也是Meta过去一年AI战略剧烈转型的成果。

2023年至2024年间，Meta凭借Llama 1、2、3系列开源模型在AI社区赢得广泛认可。这些模型性能接近OpenAI同期的旗舰模型，一度成为学术领域和开发者社区的重要基础设施。

但转折发生于2025年4月，Meta发布开源多模态模型Llama 4后遭到外界质疑，多名测试者指出模型针对特定排行榜进行优化“刷榜”，实际性能甚至不及马斯克旗下xAI发布的上一代模型。Meta后来承认了针对基准测试的特定优化行为。

与此同时，Meta首席AI科学家杨立昆（Yann LeCun）长期质疑主流大语言模型（LLM）路线，认为其无法通向通用人工智能，杨立昆主张基于视频训练的世界模型（World Model），要让模型与人类一样、通过物理直觉的方式来理解世界，这一立场被部分人士认为其令Meta在大模型竞争中贻误时机。

多重压力之下，Meta启动了大规模AI团队重组。2025年6月，Meta宣布以约143亿美元获得数据标注初创公司Scale AI 49%股份，并将时任Scale AI创始人兼首席执行官汪滔招入麾下。随后，扎克伯格发布内部信，将基础研究、产品团队及FAIR整合成为新的MSL。扎克伯格给新实验室定下的目标是：下一代AI大模型在2026年前后达到行业先进水平，未来要做服务个人的超级智能体（Agent），由汪滔与GitHub前CEO Nat Friedman领导。

Meta首席执行官扎克伯格还亲自出马招揽AI人才，据报道曾在其位于加州帕洛阿尔托和太浩湖的私宅中接待研究人员，并开出高达1亿美元的薪资待遇。最终，MSL组建了一支由50余名研究人员、工程师及其他AI从业者构成的核心团队。

然而，人员大规模涌入也带来了摩擦。2025年10月，Meta被曝计划裁减其人工智能团队约600个职位，多名Meta早期AI员工在此期间离职，部分系主动跳槽，另有部分人员在2025年10月公司重组中遭裁员。去年底，杨立昆宣布离职，这一人事变动被外界普遍视为Meta彻底拥抱主流LLM路线的标志性信号。

对于新模型，扎克伯格曾在1月份的财报电话会议表示，预计首批模型会表现不错，但更重要的是，新模型将展示Meta所处的快速发展轨道，随着新模型的不断发布，预计Meta将在年内稳步推进技术前沿。

Meta长远目标是构建其所谓的“超级智能”（superintelligence），这是一种超越人类的智能技术，能为Meta超10亿用户提供处理各类任务的个人智能体。

而在资本市场方面，Meta在AI基础设施领域的投入规模在美国科技公司中属于最为激进之列。该公司此前预告，2026年资本开支可能相比上年翻一倍，预计在1150亿美元至1350亿美元之间。

目前来看，Meta虽已凭借Muse Spark重新进入第一梯队的竞争视野，但距离全面领先仍有明显差距，大模型赛道的竞争在2026年正愈发激烈。

4月7日，Anthropic披露最新大模型Claude Mythos Preview，号称能在没有任何人类干预的情况下，自主发现并利用各大主流操作系统和Web浏览器中的复杂漏洞。据Anthropic发布的技术博客，在体现真实漏洞利用能力的测试中，Claude Mythos Preview准确率大幅提升。Anthropic还表示，新模型有望重塑网络安全领域。

此外，市场传言显示，OpenAI的GPT-6可能在4月推出。与此同时，DeepSeek于4月8日低调更新了对话界面，新增“快速模式”与“专家模式”选项，被部分观察人士解读为DeepSeekV4版本上线的前奏。