维其互联 > 信息聚合 > DeepSeek 突围奥秘曝光:一招 MLA 让全世界抄作业,150 + 天才集结,开出千万年薪

DeepSeek 突围奥秘曝光:一招 MLA 让全世界抄作业,150 + 天才集结,开出千万年薪

2025-02-01 15:06:04来源: IT之家

外媒 SemiAnalysis 的一篇深度长文,全面分析了 DeepSeek 背后的秘密 —— 不是「副业」项目、实际投入的训练成本远超 600 万美金、150 多位高校人才千万年薪,攻克 MLA 直接让推理成本暴降......DeepSeek 这波强攻,彻底把 OpenAI 逼急了 —— 深夜紧急上线 o3-mini。整整半个月,中国 AI 承包了国内外各大头条,影响力只增不减。关于 DeepSeek 模型训练数据、GPU 用量、成员构成、RL 训练算法,早已成为所有人的关注焦点。SemiAnalysis 一篇深度报道中,从多个方面进行了推测 —— 训练成本、对闭源模型利润影响、团队等等。其中一些关键亮点包括:DeepSeek 不是「副业」,在 GPU 等硬件支出远超 5 亿美元,论文中 600 万美元仅是预训练运行 GPU 成本,研发、硬件总拥有成本(TCO)被排除在外DeepSeek 大约有 5 万块 Hopper GPU,包括特供版 H800 和 H20DeepSeek 大约有 150 名员工,并定期从北大、浙大等招募顶尖人才,据称有潜力的候选人能拿到超 130 万美元(934 万元)薪水DeepSeek 一个关键创新 —— 多头潜注意力(MLA),耗时多月开发,将每个查询 KV 量减少 93.3%,显著降低推理价格o3 性能远超 R1 和 o1,谷歌 Gemini 2.0 Flash Thinking 与 R1 不相上下V3 和 R1 发布后,H10

关注公众号