AG真人百家乐 Meta 开源大模子 Llama-4-Maverick 基准测试排名暴跌

发布日期：2025-02-18 09:00 点击次数：98

IT之家 4 月 14 日音问，LMArena 更新了 Meta 最新发布的开源大模子 Llama-4-Maverick 的排名，其从此前的第 2 名直线下落至第 32 名。这证实了此前确立者对 Meta 为刷榜向 LMArena 提供“特供版”Llama 4 大模子的质疑。

4 月 6 日，Meta 发布了最新的大模子 Llama 4，包含 Scout、Maverick 和 Behemoth 三个版块。其中，Llama-4-Maverick 在 LMArena 公布的 Chatbot Arena LLM 名次榜中排名第二，仅次于 Gemini 2.5 Pro。接洽词，跟着确立者本色使用 Llama 4 大模子开源版的成果链接曝光，Llama 4 的口碑急转直下。有确立者发现 Meta 提供给 LMArena 的 Llama 4 版块与提交给社区的开源版块不同，因而质疑 Meta 刷榜舞弊。

4 月 8 日，Chatbot Arena 官方发文阐述了用户的上述质疑，公开暗示 Meta 提供给他们的是“特供版”，并酌量更新名次榜。笔据 Chatbot Arena 官方音问，Meta 初次提交 LMArena 的 Llama-4-Maverick-03-26-Experimental 是一个履行性聊天优化版块，那时该版块的排名为第二。修正后的模子为 HuggingFace 开源版同款 Llama-4-Maverick-17B-128E-Instruct，是 17B 激活参数、128 个 MoE 众人的辅导微调模子。

IT之家防卫到，AG百家乐上头目下开源版同款 Llama-4-Maverick-17B-128E-Instruct 在 LMArena 的排名为 32 名，远低于 Gemini 2.5 Pro（1）、GPT4o（2）、DeepSeek-V3-0324（5）、DeepSeek-R1（7）、Qwen2.5-Max（11），致使连英伟达基于上一代 Llama 3.3 转变的 Llama-3.3-Nemotron-Super-49B-v1（17）王人不如。

Meta 的 Llama-4-Maverick-03-26-Experimental 为何进展欠安？该公司在上周六发布的一张图表中诠释称，该模子是“针对对话性进行优化”的。这些优化赫然在 LM Arena 上赢得了可以的成果，因为 LM Arena 的东谈主类评分者会相比不同模子的输出，并遴荐他们更偏好的抑止。

由于各式原因，LM Arena 从未被视为估计 AI 模子性能的最可靠见解。尽管如斯，针对基准测试抨击模子不仅具有误导性，还使得确立者难以准确估计该模子在不同场景下的进展。

Meta 的一位发言东谈主向 TechCrunch 暗示，Meta 会尝试“各式类型的定制变体”。“‘Llama-4-Maverick-03-26-Experimental’是咱们尝试的一个针对聊天优化的版块，它在 LM Arena 上也进展可以，”该发言东谈主说，“咱们当今已发布了开源版块，将望望确立者怎样笔据我方的使用案例定制 Llama 4。咱们期待看到他们构建的内容，并期待他们捏续的反应。”