维其互联 > 信息聚合 > UC 伯克利等最新研究:大语言模型就是比人类啰嗦,“提问的艺术”仍难参透

UC 伯克利等最新研究:大语言模型就是比人类啰嗦,“提问的艺术”仍难参透

2025-01-30 19:26:29来源: IT之家

基于一段文本提问时,人类和大模型会基于截然不同的思维模式给出问题。大模型喜欢那些需要详细解释才能回答的问题,而人类倾向于提出更直接、基于事实的问题。如果要你负责企业培训,培训结束需要出一份考试题目,那如今你可以选择将培训材料交给大模型,由大模型来负责出题并给出参考答案。不过由大模型给出的考题,和人类出的题目究竟有没有差别,以及有哪些差别?最近,加州大学伯克利分校、沙特阿拉伯阿卜杜拉国王科技城(KACST)和华盛顿大学的研究人员发表了一项研究,首次系统评价了大模型提问的能力,并指出大模型和人类的提问模式存在显著差异。论文地址:https://arxiv.org/pdf/2501.03491评价提问的四个维度这项研究基于维基百科的文本,将文本拆分为 86 万个段落,之后通过亚马逊 Mechanical Turk 众包平台,由人类参与者为每个段落撰写对应的题目及答案,人类给出的文本将作为评估大模型的基准。图 1:大模型出题并评价的模式之后,研究人员将这些段落交给主流的大模型,包括闭源的 GPT-4o 和开源的 LLaMA-3.1-70b-Instruct,由大模型根据段落内容及上下文提问,之后对问题的评价也由大模型进行。对问题的评价共包含 6 个指标,分为 2 组。前三个标准评估问题本身,而第二组标准负责评估反映问题质量的潜在答案。首先介绍与答案无关的标准。1. 问题类型对于人类来说,选择问哪个问题具有主观性。这项研究定义了十种问题类型,例如验证 / 确认问题,具体

关注公众号