斯坦福大学最近的一项研究发现,尽管 o1-preview 在数学、代码等领域能力逆天,但只要对数学竞赛的题目稍修改,模型解答的准确率竟会立刻下降 30%。在数学竞赛的领域里,普特南数学竞赛的威名可谓如雷贯耳。它由 William Lowell Putnam 家族发起,自 1938 年首届举办以来,历经 66 年的岁月沉淀,已然成为全球大学生数学精英们一较高下的顶级赛场。美国数学会的精心主办,加上哈佛大学、多伦多大学等名校学子的踊跃参与,让这项赛事的桂冠成为无数学子梦寐以求的殊荣,其权威性和挑战性,那是得到了全球学界的公认。而最近,来自斯坦福的一项研究,却让大家惊掉了下巴:仅仅对题目中的变量、常量等要素稍作修改,大模型「尖子生」o1-preview 模型的准确率就立刻大幅下降,降幅高达 30%!原文链接:https://openreview.net/ forum?id=YXnwlZe0yf¬eId=yrsGpHd0Sf这就好比一位武林高手,平时在熟悉的招式里威风八面,一旦对手换个路数,就立马乱了阵脚。这不禁让人好奇,这些难住最强推理模型的变体题,到底藏着怎样的玄机?北美最难数学竞赛题「变脸」,AI 有点懵OpenAI 的 o1-preview 模型自出道以来,凭借超强的推理能力,在各个领域大杀四方。就拿编程来说,在 Codeforces 编程竞赛这个「高手如云」的赛场上,它的 Elo 评分高达 1807,把 93% 的竞争对手都远远甩在身后,写起代
斯坦福揭秘 o1-preview 软肋:数学竞赛题稍作修改,准确率骤降 30%
2025-01-31 16:59:47来源: IT之家

关注公众号
赞
你的鼓励是对作者的最大支持
- 西山居科幻机甲游戏《解限机》将作为微软 Xbox Series X|S 主机独占首发作品发布2025-02-09 22:16:42
- 育碧《孤岛惊魂:新曙光》2 月 4 日登微软 XGP,游戏将在 Xbox Series / PS5 平台迎 60 帧更新2025-02-02 21:02:11
- 苹果 Apple Watch Series 10 全天候显示秒数功能支持表盘增至四个2025-02-03 07:40:05
- JetBrains 推出全新 AI 编程工具 Junie,强调以开发者为中心可生成风格一致代码2025-02-01 21:17:53
- Cook Signals National Subsidies May Help after Apple Quarter…2025-01-31 15:59:00
- 消息称游戏《GTA 6》将在 PS5 和 Xbox Series X 上以 30FPS 运行2025-01-30 20:25:05
- 《博德之门 3》Xbox Series S 版补齐短板,补丁 8 将上线本地分屏功能2025-01-29 15:19:26
- 斯宾塞:Xbox Series S | X 主机对等支持策略不会改变2025-01-28 15:52:54
- China’s Solar and Energy Storage Companies Rushing to Tap Mi…2025-01-24 17:59:02
- 游戏《光与影:33 号远征队》4 月 24 日登陆 Xbox Series X | S 主机平台2025-01-24 10:15:46
- 1Meta 股价连续 16 日上涨,市值逼近 2 万亿美元
- 2英伟达 RTX 5090 FE 显卡供电接口熔化被指电缆功率分配不均,单根高达 269W
- 3PassMark 测试 20 年来首次出现处理器平均跑分下滑
- 4DeepSeek 被曝估值最高 1500 亿美元达 OpenAI 一半,巴黎地铁 70 岁老人都在聊
- 5海信电视接入 DeepSeek,支持 AI 语音对话
- 6消息称英伟达 GeForce RTX 5070 显卡上市推迟:从 2 月延至 3 月初
- 72024 年中国汽车进口 70.5 万辆:同比下降 11.7%,连续四年下滑
- 8长安公布旗下飞行汽车部分规格:原地垂直起降 + AI 自动驾驶、最大航程 30 公里
- 9旗下首款 240Hz OLED 超感曲面游戏显示器,联想拯救者 Pro34 预热
- 10Anduril 接手美国陆军 IVAS 头显生产工作,微软退出硬件开发