基于一段文本提问时,人类和大模型会基于截然不同的思维模式给出问题。大模型喜欢那些需要详细解释才能回答的问题,而人类倾向于提出更直接、基于事实的问题。如果要你负责企业培训,培训结束需要出一份考试题目,那如今你可以选择将培训材料交给大模型,由大模型来负责出题并给出参考答案。不过由大模型给出的考题,和人类出的题目究竟有没有差别,以及有哪些差别?最近,加州大学伯克利分校、沙特阿拉伯阿卜杜拉国王科技城(KACST)和华盛顿大学的研究人员发表了一项研究,首次系统评价了大模型提问的能力,并指出大模型和人类的提问模式存在显著差异。论文地址:https://arxiv.org/pdf/2501.03491评价提问的四个维度这项研究基于维基百科的文本,将文本拆分为 86 万个段落,之后通过亚马逊 Mechanical Turk 众包平台,由人类参与者为每个段落撰写对应的题目及答案,人类给出的文本将作为评估大模型的基准。图 1:大模型出题并评价的模式之后,研究人员将这些段落交给主流的大模型,包括闭源的 GPT-4o 和开源的 LLaMA-3.1-70b-Instruct,由大模型根据段落内容及上下文提问,之后对问题的评价也由大模型进行。对问题的评价共包含 6 个指标,分为 2 组。前三个标准评估问题本身,而第二组标准负责评估反映问题质量的潜在答案。首先介绍与答案无关的标准。1. 问题类型对于人类来说,选择问哪个问题具有主观性。这项研究定义了十种问题类型,例如验证 / 确认问题,具体
UC 伯克利等最新研究:大语言模型就是比人类啰嗦,“提问的艺术”仍难参透
2025-01-30 19:26:29来源: IT之家

关注公众号
赞
你的鼓励是对作者的最大支持
- AI 生成内容泛滥,美国最大作家组织推出“人类创作”书籍认证2025-01-30 19:59:41
- 399 元,优派 144Hz(超频)高刷 23.8 英寸 1080P 显示器“VA24G25”首销2025-01-30 20:16:24
- 消息称游戏《GTA 6》将在 PS5 和 Xbox Series X 上以 30FPS 运行2025-01-30 20:25:05
- Nothing Phone(3a)系列手机官宣 3 月 4 日发布:搭骁龙 7s Gen 3、配标志性 Glyph 灯条2025-01-30 20:29:48
- Aurora 超级计算机向全球科学界开放,模拟计算能力超 1 FP64 ExaFLOPS2025-01-30 20:48:07
- HMD Crest 5G 手机上架京东:紫光展锐 T760 + 8G + 256G 售 1199 元2025-01-30 20:50:38
- 董事对现有“降本”措施能否增效疑虑重重,大众汽车被曝将加大裁员力度2025-01-30 21:05:35
- 本田将进行组织改革:整合“软件定义汽车”单元至汽车业务,新设汽车开发部门2025-01-30 21:33:59
- 机器人炸场春晚!《秧BOT》燃爆全球,AI赛博秧歌震撼登场2025-01-29 16:59:58
- 国产动画,都有谁在看啊?2025-01-29 19:30:12
- 1Meta 股价连续 16 日上涨,市值逼近 2 万亿美元
- 2英伟达 RTX 5090 FE 显卡供电接口熔化被指电缆功率分配不均,单根高达 269W
- 3PassMark 测试 20 年来首次出现处理器平均跑分下滑
- 4DeepSeek 被曝估值最高 1500 亿美元达 OpenAI 一半,巴黎地铁 70 岁老人都在聊
- 5海信电视接入 DeepSeek,支持 AI 语音对话
- 6消息称英伟达 GeForce RTX 5070 显卡上市推迟:从 2 月延至 3 月初
- 72024 年中国汽车进口 70.5 万辆:同比下降 11.7%,连续四年下滑
- 8长安公布旗下飞行汽车部分规格:原地垂直起降 + AI 自动驾驶、最大航程 30 公里
- 9旗下首款 240Hz OLED 超感曲面游戏显示器,联想拯救者 Pro34 预热
- 10Anduril 接手美国陆军 IVAS 头显生产工作,微软退出硬件开发