外媒 SemiAnalysis 的一篇深度长文,全面分析了 DeepSeek 背后的秘密 —— 不是「副业」项目、实际投入的训练成本远超 600 万美金、150 多位高校人才千万年薪,攻克 MLA 直接让推理成本暴降......DeepSeek 这波强攻,彻底把 OpenAI 逼急了 —— 深夜紧急上线 o3-mini。整整半个月,中国 AI 承包了国内外各大头条,影响力只增不减。关于 DeepSeek 模型训练数据、GPU 用量、成员构成、RL 训练算法,早已成为所有人的关注焦点。SemiAnalysis 一篇深度报道中,从多个方面进行了推测 —— 训练成本、对闭源模型利润影响、团队等等。其中一些关键亮点包括:DeepSeek 不是「副业」,在 GPU 等硬件支出远超 5 亿美元,论文中 600 万美元仅是预训练运行 GPU 成本,研发、硬件总拥有成本(TCO)被排除在外DeepSeek 大约有 5 万块 Hopper GPU,包括特供版 H800 和 H20DeepSeek 大约有 150 名员工,并定期从北大、浙大等招募顶尖人才,据称有潜力的候选人能拿到超 130 万美元(934 万元)薪水DeepSeek 一个关键创新 —— 多头潜注意力(MLA),耗时多月开发,将每个查询 KV 量减少 93.3%,显著降低推理价格o3 性能远超 R1 和 o1,谷歌 Gemini 2.0 Flash Thinking 与 R1 不相上下V3 和 R1 发布后,H10
DeepSeek 突围奥秘曝光:一招 MLA 让全世界抄作业,150 + 天才集结,开出千万年薪
2025-02-01 15:06:04来源: IT之家

关注公众号
赞
你的鼓励是对作者的最大支持
- 三星首款三折叠手机被曝叫 Galaxy G Fold:9.96 英寸屏幕,2025Q3 发布2025-02-01 14:23:52
- 英特尔下代至强能效核延至 2026 年,同年推出 Nova Lake 处理器2025-02-01 14:30:09
- 奥迪新款 RS 5 Avant 旅行车原型路测图曝光,将配插电混动系统2025-02-01 14:37:35
- 《勇者斗恶龙 11》今起暂时从任天堂 Switch 商店下架,游戏重新上架时间待定2025-02-01 14:46:15
- 雷诺发布 Filante Record 2025 概念电动超跑,挑战续航极限2025-02-01 14:49:07
- 华为余承东年初三智驾 1345 公里返工回深圳,称智界 R7 打赢“鸡蛋保卫战”2025-02-01 15:21:10
- 美国宇航局计划 2 月 27 日发射 SPHEREx,开启绘制宇宙全景地图之旅2025-02-01 15:24:46
- 消息称育碧公司育碧深陷多重危机:内部动荡、已处于破产边缘2025-02-01 15:44:19
- 真香:美国造车新势力 Lucid CEO 发文感谢特斯拉开放超级充电桩2025-02-01 15:51:41
- 美国司法部就 HPE 慧与拟以 140 亿美元收购 Juniper 瞻博网络提起诉讼2025-02-01 15:52:21
- 1Meta 股价连续 16 日上涨,市值逼近 2 万亿美元
- 2英伟达 RTX 5090 FE 显卡供电接口熔化被指电缆功率分配不均,单根高达 269W
- 3PassMark 测试 20 年来首次出现处理器平均跑分下滑
- 4DeepSeek 被曝估值最高 1500 亿美元达 OpenAI 一半,巴黎地铁 70 岁老人都在聊
- 5海信电视接入 DeepSeek,支持 AI 语音对话
- 6消息称英伟达 GeForce RTX 5070 显卡上市推迟:从 2 月延至 3 月初
- 72024 年中国汽车进口 70.5 万辆:同比下降 11.7%,连续四年下滑
- 8长安公布旗下飞行汽车部分规格:原地垂直起降 + AI 自动驾驶、最大航程 30 公里
- 9旗下首款 240Hz OLED 超感曲面游戏显示器,联想拯救者 Pro34 预热
- 10Anduril 接手美国陆军 IVAS 头显生产工作,微软退出硬件开发