维其互联 > 信息聚合 > OpenAI ChatGPT 上新 Deep Research:持续思考 30 分钟输出 1 万字,刷榜“人类最后的考试”

OpenAI ChatGPT 上新 Deep Research:持续思考 30 分钟输出 1 万字,刷榜“人类最后的考试”

2025-02-03 15:03:48来源: IT之家

就在开源的 DeepSeek-R1 被整合进各路 AI 搜索工具之际,OpenAI 临时举行小型发布会。4 点 27 通知,8 点开始直播。ChatGPT 上新“Deep Research”,把推理大模型的思考能力用于联网搜索。据介绍,Deep Research 功能可在数十分钟完成人类专家需要几个小时的复杂研究任务。在“人类最后的考试”上,Deep Research 刷新了最高分,比 o3-mini 高推理设置分数高出一倍。该测试包括 3000 多个多选和简答题,涵盖从语言学、火箭科学到生态学的 100 多个主题。与 o1 相比,Deep Research 最突出的地方在化学,人文和社会科学以及数学中,表现出类似人类的“在必要时寻找专业信息”的能力。另一项测试 GAIA,在现实世界问题上评估 AI 的公开基准测试,Deep Research 在 3 个级别的难度上均刷新记录。出于保护基准测试的目的,OpenAI 只展示了 Deep Research 在完成这些任务时的搜索过程,隐去了最终答案。Deep Research 功能接下来将对 Pro、Plus 和 Team 用户开放。奥特曼后面补充,目前版本基于 o3 构建,Plus 用户(20 美元 / 月)每个月能用约 10 次,且正在构建一个更高效的版本。此外,免费用户也能获得非常少量的使用额度。推理 Agent 的第一步OpenAI 表示,Deep Research 专门为在金融 / 科学 / 工程等领域从

关注公众号
标签: AR