维其互联 > 信息聚合 > 智算“万卡”潮起,国产AI芯片迎高光时刻

智算“万卡”潮起,国产AI芯片迎高光时刻

2025-01-08 20:15:16来源: 钛媒体

文 | 半导体产业纵横GPU万卡集群,小米下场了!摩尔线程智算集群扩展至万卡!中国移动将商用三个自主可控万卡集群......一系列标题的袭来,让笔者突然意识到,仿佛在不经意间,智能算力建设已然迈入万卡时代。那么到底什么是万卡集群?万卡集群到底有哪些作用?有必要部署万卡集群吗?01 什么是万卡集群?万卡集群,是指由超过一万张加速卡(如GPU、TPU或其他专用AI加速芯片)组成的高性能计算系统,用以加速人工智能模型的训练和推理过程。至于为什么需要一万张加速卡?众所周知,大模型竞赛的本质是算力竞赛。比如这里有一个超大土堆,放一个工人和放一万个工人,在效率上肯定会有质的飞跃。以OpenAI训练GPT模型为例,GPT-4需要使用2.5万张英伟达A100 GPU,并行训练100天左右的时间,在此期间要处理13万亿个token,并且涉及大约1.76万亿个参数。在不久的将来,开发大模型所需的算力将实现指数级的增长,对于即将亮相的GPT-5,预计该模型的训练需要部署20万~30万个H100 GPU,耗时130~200 天。如今OpenAI发布ChatGPT已有两年的时间,从建设进度上看,海外头部厂商在2022年、2023年已经完成万卡集群搭建。比如2023年5月,谷歌推出的AI超级计算机A3,搭载了约26000块英伟达H100 GPU;2022年,META宣布了一个由1.6万块英伟达A100 GPU组成的集群。到了2024年初,META进一步扩大规模,建成了两个各含2

关注公众号