维其互联 > 信息聚合 > 68 页论文再锤大模型竞技场:Llama4 发布前私下测试 27 个版本,只取最佳成绩

68 页论文再锤大模型竞技场:Llama4 发布前私下测试 27 个版本,只取最佳成绩

2025-05-02 20:41:36来源: IT之家

大模型竞技场的可信度,再次被锤。最近一篇名为《排行榜幻觉》(The Leaderboard Illusion)的论文在学术圈引发关注。它指出,如今被视为 LLM 领域首选排行榜的 Chatbot Arena,存在诸多系统问题。比如:少数大厂可以私下测试多个模型版本,Llama4 在发布前甚至测了 27 个版本,然后只公开最佳表现。数据访问不平等,专有模型获得的用户反馈数据显著多于开源模型。试用 Arena 数据训练,可提升模型性能高达 112%。205 个模型被悄悄静默弃用,远超过官方列出的 47 个。大神卡帕西也站出来表示,他个人也察觉出了一些异样。有一段时间,Claude-3.5 是我觉得最好用的模型,但是在竞技场中排名很低。当时我在网上也看到了类似的反馈。对于最新质疑,大模型竞技场官方 Lmrena.ai已经给出回应:确实帮助厂商进行测试,最后发布最受欢迎的版本;但这不代表竞技场有偏见,排行榜反映数百万人类的个人真实偏好。快速刷榜不符合模型进步实际情况具体来看这项研究,它收集了 243 个模型的 200 + 万场竞技场 battle,并结合私人真实测试,通过模拟实验确定了不同情况下对模型排名的影响。主要挖掘出了 4 方面问题。第一,私人测试和有选择性的结果报告。少数大模型厂商(如 Meta、Google、Amazon)被允许私下测试多个模型变体,并只公开最佳表现的版本。比如,Meta 在 Llama 4 发布前曾私下测试 27 个变体,加上多模态、代码等

关注公众号