AG真人百家乐 Meta 开源大模子 Llama-4-Maverick 基准测试排名暴跌

发布日期:2025-02-18 09:00    点击次数:97

IT之家 4 月 14 日音问,LMArena 更新了 Meta 最新发布的开源大模子 Llama-4-Maverick 的排名,其从此前的第 2 名直线下落至第 32 名。这证实了此前确立者对 Meta 为刷榜向 LMArena 提供“特供版”Llama 4 大模子的质疑。

4 月 6 日,Meta 发布了最新的大模子 Llama 4,包含 Scout、Maverick 和 Behemoth 三个版块。其中,Llama-4-Maverick 在 LMArena 公布的 Chatbot Arena LLM 名次榜中排名第二,仅次于 Gemini 2.5 Pro。接洽词,跟着确立者本色使用 Llama 4 大模子开源版的成果链接曝光,Llama 4 的口碑急转直下。有确立者发现 Meta 提供给 LMArena 的 Llama 4 版块与提交给社区的开源版块不同,因而质疑 Meta 刷榜舞弊。

4 月 8 日,Chatbot Arena 官方发文阐述了用户的上述质疑,公开暗示 Meta 提供给他们的是“特供版”,并酌量更新名次榜。笔据 Chatbot Arena 官方音问,Meta 初次提交 LMArena 的 Llama-4-Maverick-03-26-Experimental 是一个履行性聊天优化版块,那时该版块的排名为第二。修正后的模子为 HuggingFace 开源版同款 Llama-4-Maverick-17B-128E-Instruct,是 17B 激活参数、128 个 MoE 众人的辅导微调模子。

IT之家防卫到,AG百家乐上头目下开源版同款 Llama-4-Maverick-17B-128E-Instruct 在 LMArena 的排名为 32 名,远低于 Gemini 2.5 Pro(1)、GPT4o(2)、DeepSeek-V3-0324(5)、DeepSeek-R1(7)、Qwen2.5-Max(11),致使连英伟达基于上一代 Llama 3.3 转变的 Llama-3.3-Nemotron-Super-49B-v1(17)王人不如。

Meta 的 Llama-4-Maverick-03-26-Experimental 为何进展欠安?该公司在上周六发布的一张图表中诠释称,该模子是“针对对话性进行优化”的。这些优化赫然在 LM Arena 上赢得了可以的成果,因为 LM Arena 的东谈主类评分者会相比不同模子的输出,并遴荐他们更偏好的抑止。

由于各式原因,LM Arena 从未被视为估计 AI 模子性能的最可靠见解。尽管如斯,针对基准测试抨击模子不仅具有误导性,还使得确立者难以准确估计该模子在不同场景下的进展。

Meta 的一位发言东谈主向 TechCrunch 暗示,Meta 会尝试“各式类型的定制变体”。“‘Llama-4-Maverick-03-26-Experimental’是咱们尝试的一个针对聊天优化的版块,它在 LM Arena 上也进展可以,”该发言东谈主说,“咱们当今已发布了开源版块,将望望确立者怎样笔据我方的使用案例定制 Llama 4。咱们期待看到他们构建的内容,并期待他们捏续的反应。”