维其互联 > 信息聚合 > 最新研究揭示 AI 数据之殇:科技巨头垄断权力,「西方中心」数据加剧模型偏见

最新研究揭示 AI 数据之殇:科技巨头垄断权力,「西方中心」数据加剧模型偏见

2025-01-30 14:51:39来源: IT之家

相比 LLM 和 Agent 领域日新月异、高度成熟的进展相比,数据收集方面的规范有明显滞后。由超过 50 名研究人员组成的数据溯源计划(DPI)旨在回答这样一个问题:AI 训练所需的数据究竟来自何处?「AI 就是数据」,这句话想必已经成为了业内的共识。当前的算法需要海量数据进行训练,我们喂给模型的内容决定了它的行为和结果。但问题是:AI 领域的开发者和研究人员并不真正了解这些数据的来源。与模型开发的复杂性相比,人工智能领域的数据收集实践还不成熟,很多数据集都无法给出内容及其来源的明确信息。成立于 2024 年的 Data Provenance Initiative 就想要解决这个问题 —— 构建 AI 模型的数据集究竟来源何处。这是一个志愿者团体,由来自世界各地的 AI 学术界和工业界的 50 多名研究人员组成。他们审核的近 4000 个公共数据集中,涵盖了 67 个国家、近 700 个组织、600 多种语言,含有约 800 种数据来源,时间跨度长达三十年。DPI 的研究结果呈现出一种令人担忧的趋势:AI 领域的数据存在着「垄断」倾向,绝大部分权力正逐渐集中到少数几个科技巨头的手中。LLM 数据来源之变时间回溯到 2010 年代初,当时的数据集还会涵盖多种来源,不仅有百科全书和网络,还有议会记录、财报电话、天气预报等。参与项目的 MIT 研究员 Shayne Longpre 表示,这是因为当时的数据集是为个别任务构建的,要专门从不同来源收集和整理。2017

关注公众号