维其互联 > 信息聚合 > 斯坦福揭秘 o1-preview 软肋:数学竞赛题稍作修改,准确率骤降 30%

斯坦福揭秘 o1-preview 软肋:数学竞赛题稍作修改,准确率骤降 30%

2025-01-31 16:59:47来源: IT之家

斯坦福大学最近的一项研究发现,尽管 o1-preview 在数学、代码等领域能力逆天,但只要对数学竞赛的题目稍修改,模型解答的准确率竟会立刻下降 30%。在数学竞赛的领域里,普特南数学竞赛的威名可谓如雷贯耳。它由 William Lowell Putnam 家族发起,自 1938 年首届举办以来,历经 66 年的岁月沉淀,已然成为全球大学生数学精英们一较高下的顶级赛场。美国数学会的精心主办,加上哈佛大学、多伦多大学等名校学子的踊跃参与,让这项赛事的桂冠成为无数学子梦寐以求的殊荣,其权威性和挑战性,那是得到了全球学界的公认。而最近,来自斯坦福的一项研究,却让大家惊掉了下巴:仅仅对题目中的变量、常量等要素稍作修改,大模型「尖子生」o1-preview 模型的准确率就立刻大幅下降,降幅高达 30%!原文链接:https://openreview.net/ forum?id=YXnwlZe0yf¬eId=yrsGpHd0Sf这就好比一位武林高手,平时在熟悉的招式里威风八面,一旦对手换个路数,就立马乱了阵脚。这不禁让人好奇,这些难住最强推理模型的变体题,到底藏着怎样的玄机?北美最难数学竞赛题「变脸」,AI 有点懵OpenAI 的 o1-preview 模型自出道以来,凭借超强的推理能力,在各个领域大杀四方。就拿编程来说,在 Codeforces 编程竞赛这个「高手如云」的赛场上,它的 Elo 评分高达 1807,把 93% 的竞争对手都远远甩在身后,写起代

关注公众号
标签: IE