大模型竞技场的可信度,再次被锤。最近一篇名为《排行榜幻觉》(The Leaderboard Illusion)的论文在学术圈引发关注。它指出,如今被视为 LLM 领域首选排行榜的 Chatbot Arena,存在诸多系统问题。比如:少数大厂可以私下测试多个模型版本,Llama4 在发布前甚至测了 27 个版本,然后只公开最佳表现。数据访问不平等,专有模型获得的用户反馈数据显著多于开源模型。试用 Arena 数据训练,可提升模型性能高达 112%。205 个模型被悄悄静默弃用,远超过官方列出的 47 个。大神卡帕西也站出来表示,他个人也察觉出了一些异样。有一段时间,Claude-3.5 是我觉得最好用的模型,但是在竞技场中排名很低。当时我在网上也看到了类似的反馈。对于最新质疑,大模型竞技场官方 Lmrena.ai已经给出回应:确实帮助厂商进行测试,最后发布最受欢迎的版本;但这不代表竞技场有偏见,排行榜反映数百万人类的个人真实偏好。快速刷榜不符合模型进步实际情况具体来看这项研究,它收集了 243 个模型的 200 + 万场竞技场 battle,并结合私人真实测试,通过模拟实验确定了不同情况下对模型排名的影响。主要挖掘出了 4 方面问题。第一,私人测试和有选择性的结果报告。少数大模型厂商(如 Meta、Google、Amazon)被允许私下测试多个模型变体,并只公开最佳表现的版本。比如,Meta 在 Llama 4 发布前曾私下测试 27 个变体,加上多模态、代码等
68 页论文再锤大模型竞技场:Llama4 发布前私下测试 27 个版本,只取最佳成绩
2025-05-02 20:41:36来源: IT之家

关注公众号
赞
你的鼓励是对作者的最大支持
- 宝马计划 2030 年发布四门电动轿车 i2:注重空间及实用性,续航有望超 700km2025-05-03 21:46:30
- 阿维塔再回应网传“风阻系数造假”:近期将根据国家专业机构实验室排期公开测试2025-05-03 22:10:00
- 宣布停止开发拉力赛游戏后,Codemasters 工作室将开展裁员2025-05-03 22:43:26
- 鸿蒙智行全系车型 5 月 1 日-3 日大定突破 12500 台2025-05-03 22:51:31
- ICML 2025 录用结果公布:好评论文遭拒,审稿人敷衍引全网吐槽2025-05-02 21:23:13
- 《GTA 6》跳票至明年,发行商 Take-Two 表示“完全支持”2025-05-02 21:44:27
- 丹麦万人研究表明:生成式 AI“尚未显著影响”工资与就业情况2025-05-02 22:05:04
- 一季度我国出口集成电路 761 亿个,同比增长 22%2025-05-02 22:10:36
- 大众今年 Q1 净利大幅下滑,纯电车型销量暴增带来“甜蜜负担”2025-05-02 22:23:08
- 小米平板 7 Max 有望更名 Ultra:已通过蓝牙认证,120W 快充2025-05-02 22:51:35
- 1吉利银河 App 出现服务问题,官方回应称运营服务商网络波动
- 2德国 ONOX 公司推出全电动拖拉机,采用换电设计
- 3全新智己 L6 上市:全系四轮转向、最高续航 850 公里,上市权益价 20.49 万元起
- 4一加平板 2 Pro 发布:骁龙 8 至尊版、13.2 英寸屏,国补后 2719.15 元起
- 5消息称苹果与 Synchron 合作,今年上线脑机接口操控 iPhone 功能
- 6KTC 推出“H27P6”27 英寸显示器:4K 160Hz / FHD 320Hz 双模 + 90W USB-C,15…
- 7李想一年赚6个亿,合理吗?
- 8张永斌:破局与启航——汽车产业链出海的路径探索与投资抉择 | 钛资本智能汽车组
- 9苹果公布今年将推出的全新辅助功能:App Store 增无障碍标签,Mac 首迎放大镜应用
- 10松下 LUMIX S1M2 和 S1M2E 相机发布,推出 S 24-60mm F2.8 镜头