首个 FP4 精度的大模型训练框架来了,来自微软研究院!在相同超参数的设置下,可以达到与 FP8 以及 BF16 相当的训练效果。这意味着所需的存储和计算资源可以更少。用这种方法训练的模型规模最高可达 130 亿参数规模,训练 Tokens 数量也达到千亿级别。而且用的还不是真・FP4,而是通过 FP8 来模拟,如果采用真的 FP4,效果还能进一步提升。(注:研究开展时,尚未有原生支持 FP4 的硬件,故作者通过在 FP8 的 TensorCore 上模拟实现)网友评论说,效率更高质量却没什么损失,FP4 真的是个 game changer。还有人说,如果这一发现广为人知,恐怕老黄的股价又要跌了。当然,因低训练成本而成为当红明星的 DeepSeek 也被网友 cue 了一下:在 FP8 TensorCore 上模拟 FP4如开头所述,在相同超参数的设置下,作者的方法可以达到与 BF16 的训练效果。具体来说,在 1.3B、7B 和 13B 的 LLaMA 模型上,从 0 到 1 千万 Tokens 的训练过程中,作者的 FP4 训练与 BF16 的损失曲线基本一致。在下游任务上,表现同样也和 BF16 相当。为了实现 FP4 精度训练,研究团队采用了定制化的 FP4 矩阵乘法(GeMM)CUDA 内核。在内核中,作者先用 FP16 将 FP4 的 A 和 B 矩阵读入共享内存并做相应变换,然后用 FP4 完成分块矩阵乘法,最后再用 FP16 对中间结果进行归约
大模型训练开销还能更小:微软推出首个 FP4 训练框架,训练效果与 BF16 相当
2025-01-30 14:52:31来源: IT之家

关注公众号
赞
你的鼓励是对作者的最大支持
- 泰国首条高铁预计 2030 年建成,经老挝连接中国2025-01-30 14:20:18
- 宝马最快 3 系旅行车:M3 CS Touring 登场,零百加速 3.5 秒、最高 300 km/h2025-01-30 14:34:34
- 索尼 PS+ 一档 2 月会免游戏:《收获日 3》《吃豆人 吃遍世界》等2025-01-30 14:36:46
- 最后一款燃油版 Q3:奥迪新款 Q3 Sportback 原型车冬测图片曝光2025-01-30 14:48:37
- 《财富》揭晓 2025 全球最受赞赏公司榜单,苹果连续 18 年蝉联榜首2025-01-30 14:59:33
- Techland 正在筹备多个未公布的《消逝的光芒》新作2025-01-30 15:00:26
- 微软更新 PC 版 Xbox 应用:分享游戏回顾、个性化界面等2025-01-30 15:12:58
- 三星 Galaxy S25 系列手机磁吸便携卡包海外开售,首发价 14.99 美元2025-01-30 15:26:08
- 微信公众号上线“辟谣”功能:进一步净化网络环境,帮助用户识别虚假信息2025-01-30 15:30:50
- 深挖 Pixel 4a 手机“死亡更新”事件,谷歌限制电压导致续航骤降2025-01-30 15:31:31
- 1闪迪介绍高带宽闪存 HBF:单 AI 推理 GPU 存储容量即可满足前沿模型需求
- 2百度 Apollo 智舱大模型完成 DeepSeek 接入,将在凯迪拉克、别克新车搭载
- 3《哪吒之魔童闹海》首批海外上映地区定档,今日起强势登陆美澳
- 4股市龙虎榜是什么?用它来分析股票的原理是什么?
- 5上海自贸试验区数据跨境服务中心成立,提供“一站式”服务
- 6DeepSeek突袭,英伟达算力霸权是否会走入危局?
- 7索尼 2024 财年 Q3 销售额 4.41 万亿日元同比增长 18%,PS5 主机销量累计达 7510 万台
- 8《守望先锋 2》游戏迎来天赋升级系统,战利品箱、303 模式回归
- 9消息称 iPhone 17 Pro Max 将落地金属超构透镜,折叠 iPad 也会运用该方案
- 10极氪汽车宣布进军非洲市场,001 埃及售价约 38.83 万元人民币起