维其互联 > 信息聚合 > 大模型训练开销还能更小:微软推出首个 FP4 训练框架,训练效果与 BF16 相当

大模型训练开销还能更小:微软推出首个 FP4 训练框架,训练效果与 BF16 相当

2025-01-30 14:52:31来源: IT之家

首个 FP4 精度的大模型训练框架来了,来自微软研究院!在相同超参数的设置下,可以达到与 FP8 以及 BF16 相当的训练效果。这意味着所需的存储和计算资源可以更少。用这种方法训练的模型规模最高可达 130 亿参数规模,训练 Tokens 数量也达到千亿级别。而且用的还不是真・FP4,而是通过 FP8 来模拟,如果采用真的 FP4,效果还能进一步提升。(注:研究开展时,尚未有原生支持 FP4 的硬件,故作者通过在 FP8 的 TensorCore 上模拟实现)网友评论说,效率更高质量却没什么损失,FP4 真的是个 game changer。还有人说,如果这一发现广为人知,恐怕老黄的股价又要跌了。当然,因低训练成本而成为当红明星的 DeepSeek 也被网友 cue 了一下:在 FP8 TensorCore 上模拟 FP4如开头所述,在相同超参数的设置下,作者的方法可以达到与 BF16 的训练效果。具体来说,在 1.3B、7B 和 13B 的 LLaMA 模型上,从 0 到 1 千万 Tokens 的训练过程中,作者的 FP4 训练与 BF16 的损失曲线基本一致。在下游任务上,表现同样也和 BF16 相当。为了实现 FP4 精度训练,研究团队采用了定制化的 FP4 矩阵乘法(GeMM)CUDA 内核。在内核中,作者先用 FP16 将 FP4 的 A 和 B 矩阵读入共享内存并做相应变换,然后用 FP4 完成分块矩阵乘法,最后再用 FP16 对中间结果进行归约

关注公众号