DeepSeek 和 o1 / o3 一类推理大模型持续带来震撼之际,有人开始研究他们的弱点了。最新研究揭示:在遇到高难度问题时,推理大模型可能像“三心二意的学生”一样频繁切换解题思路,却因缺乏深入探索而失败 —— 这种现象被研究者称为 Underthinking(欠思考)。研究团队来自腾讯 AI 实验室、苏州大学和上海交通大学,主要研究对象是开源的 DeepSeek-R1 和 Qwen QwQ系列模型。通过分析 AI 的错误答案,他们发现当前的推理大模型经常在思考早期就走上了正确的路线,但倾向于“浅尝辄止”,很快开始探索别的思路,导致后续生成的数千个 tokens 对解题毫无贡献。这种“无效努力”不仅浪费计算资源,还显著降低了答案的正确率。“三心二意”是罪魁祸首这一现象在解决数学竞赛题等更为复杂任务时尤为明显。为了系统分析,团队在三个具有挑战性的测试集 MATH500、GPQA Diamond 和 AIME2024 上,对类 o1 模型 QwQ-32B-Preview、DeepSeek-R1-671B 等进行了实验。下图比较了正确和错误回答中的 token 使用量和思维切换次数。平均来看,类 o1 模型在错误回答中比正确回答多消耗了 225% 的 token,原因是思维切换频率增加了 418%。为了深入分析这一现象,研究团队开发了一套评估框架,用于判断被放弃的推理路径是否实际上足以推导出正确答案。结果观察到,许多模型在回答开头阶段的思路是正确的,但并未继续深
新研究揭示 DeepSeek / o3 弱点:频繁切换思路放弃正确方向,最短答案往往就是对的
2025-02-03 14:30:16来源: IT之家

关注公众号
赞
你的鼓励是对作者的最大支持
- 《哪吒之魔童闹海》总票房破 35.62 亿元,成中国影史春节档票房冠军2025-02-03 13:39:02
- 中国红客联盟就 DeepSeek 事件声明:与目前网络上传播的所谓“红客联盟工具包”毫无关联2025-02-03 13:52:01
- 英伟达 RTX 5070 Ti 和 5070 显卡上市在即,获得 Vulkan 1.4 兼容性认证2025-02-03 15:17:28
- 菁彩声技术、8K 转播,哈尔滨 2025 年第九届亚冬会本月开赛2025-02-03 15:26:52
- 交通运输部:春运期间全国货运物流有序运行,上周民航累计保障航班 12.6 万班2025-02-03 15:27:16
- “日本环球影城”官方酒店开始提供任天堂 Alarmo 闹钟租赁服务2025-02-03 15:33:30
- 法拉第未来定于 3 月 10 日更换股票代码为 FFAI,3 月 17 日举行“FF 开放 AI 日”2025-02-03 15:46:01
- 消息称三星 Galaxy Z Fold7 折叠屏手机基于去年韩国限定“Z Fold 特别版”机型打造2025-02-03 15:47:18
- 多家剧院开放千人场《哪吒之魔童闹海》,回应称并非首次2025-02-03 16:03:14
- 特斯拉在美国为 FSD 用户推出 7-8 折专属车险折扣,车主需保持 90 分以上安全驾驶评分2025-02-03 16:10:59
- 1三星 Galaxy A56 5G 手机新渲染图:Exynos 1580 芯片、45W 快充、拉丝铝合金边框
- 2DeepSeek 被曝估值最高 1500 亿美元达 OpenAI 一半,巴黎地铁 70 岁老人都在聊
- 3阿维塔 07 Pro+ 将搭载华为乾崑智驾 ADS SE,后续 OTA 升级离车泊入
- 42024 年中国汽车进口 70.5 万辆:同比下降 11.7%,连续四年下滑
- 5海信电视接入 DeepSeek,支持 AI 语音对话
- 6英伟达 RTX 5090 FE 显卡供电接口熔化被指电缆功率分配不均,单根高达 269W
- 7何小鹏朋友圈晒与华为任正非合影,夸赞“无私,睿智”
- 8消息称英伟达 GeForce RTX 5070 显卡上市推迟:从 2 月延至 3 月初
- 9旗下首款 240Hz OLED 超感曲面游戏显示器,联想拯救者 Pro34 预热
- 10长安公布旗下飞行汽车部分规格:原地垂直起降 + AI 自动驾驶、最大航程 30 公里