相比 LLM 和 Agent 领域日新月异、高度成熟的进展相比,数据收集方面的规范有明显滞后。由超过 50 名研究人员组成的数据溯源计划(DPI)旨在回答这样一个问题:AI 训练所需的数据究竟来自何处?「AI 就是数据」,这句话想必已经成为了业内的共识。当前的算法需要海量数据进行训练,我们喂给模型的内容决定了它的行为和结果。但问题是:AI 领域的开发者和研究人员并不真正了解这些数据的来源。与模型开发的复杂性相比,人工智能领域的数据收集实践还不成熟,很多数据集都无法给出内容及其来源的明确信息。成立于 2024 年的 Data Provenance Initiative 就想要解决这个问题 —— 构建 AI 模型的数据集究竟来源何处。这是一个志愿者团体,由来自世界各地的 AI 学术界和工业界的 50 多名研究人员组成。他们审核的近 4000 个公共数据集中,涵盖了 67 个国家、近 700 个组织、600 多种语言,含有约 800 种数据来源,时间跨度长达三十年。DPI 的研究结果呈现出一种令人担忧的趋势:AI 领域的数据存在着「垄断」倾向,绝大部分权力正逐渐集中到少数几个科技巨头的手中。LLM 数据来源之变时间回溯到 2010 年代初,当时的数据集还会涵盖多种来源,不仅有百科全书和网络,还有议会记录、财报电话、天气预报等。参与项目的 MIT 研究员 Shayne Longpre 表示,这是因为当时的数据集是为个别任务构建的,要专门从不同来源收集和整理。2017
最新研究揭示 AI 数据之殇:科技巨头垄断权力,「西方中心」数据加剧模型偏见
2025-01-30 14:51:39来源: IT之家

关注公众号
赞
你的鼓励是对作者的最大支持
- 泰国首条高铁预计 2030 年建成,经老挝连接中国2025-01-30 14:20:18
- 宝马最快 3 系旅行车:M3 CS Touring 登场,零百加速 3.5 秒、最高 300 km/h2025-01-30 14:34:34
- 索尼 PS+ 一档 2 月会免游戏:《收获日 3》《吃豆人 吃遍世界》等2025-01-30 14:36:46
- Nothing Phone(3a)Pro 工程机谍照曝光,采用后置三摄设计2025-01-30 14:53:08
- 《财富》揭晓 2025 全球最受赞赏公司榜单,苹果连续 18 年蝉联榜首2025-01-30 14:59:33
- Techland 正在筹备多个未公布的《消逝的光芒》新作2025-01-30 15:00:26
- 微软更新 PC 版 Xbox 应用:分享游戏回顾、个性化界面等2025-01-30 15:12:58
- 三星 Galaxy S25 系列手机磁吸便携卡包海外开售,首发价 14.99 美元2025-01-30 15:26:08
- 微信公众号上线“辟谣”功能:进一步净化网络环境,帮助用户识别虚假信息2025-01-30 15:30:50
- 深挖 Pixel 4a 手机“死亡更新”事件,谷歌限制电压导致续航骤降2025-01-30 15:31:31
- 1Meta 股价连续 16 日上涨,市值逼近 2 万亿美元
- 2英伟达 RTX 5090 FE 显卡供电接口熔化被指电缆功率分配不均,单根高达 269W
- 3PassMark 测试 20 年来首次出现处理器平均跑分下滑
- 4DeepSeek 被曝估值最高 1500 亿美元达 OpenAI 一半,巴黎地铁 70 岁老人都在聊
- 5海信电视接入 DeepSeek,支持 AI 语音对话
- 6消息称英伟达 GeForce RTX 5070 显卡上市推迟:从 2 月延至 3 月初
- 72024 年中国汽车进口 70.5 万辆:同比下降 11.7%,连续四年下滑
- 8长安公布旗下飞行汽车部分规格:原地垂直起降 + AI 自动驾驶、最大航程 30 公里
- 9旗下首款 240Hz OLED 超感曲面游戏显示器,联想拯救者 Pro34 预热
- 10Anduril 接手美国陆军 IVAS 头显生产工作,微软退出硬件开发