Meta 新建两座数据中心集群：内含超 4.9 万块英伟达 H100 GPU，专门训练 Llama3

2024-03-13 17:51 IT之家 - 清源

感谢IT之家网友 lemon_meta 的线索投递！

IT之家 3 月 13 日消息，Meta 公司当地时间 12 日通过官方新闻稿公布了两座新的数据中心集群，该公司正希望通过英伟达的 GPU，在以 AI 为重点的开发中脱颖而出。

据悉，这两座数据中心的唯一目的，是在消费者特定应用领域（IT之家注：包含声音或图像识别）中进行 AI 研究和大语言模型的开发，每个集群都包含了 24576 块英伟达 H100 AI GPU，将用于自家大语言模型 Llama 3 的训练。

两座新建的数据中心集群都具有 400Gbps 互联功能，其中一个集群采用了 Meta 基于 Arista 7800 自主开发的 Fabric 解决方案，而另一个集群则采用了英伟达的 Quantum2 InfiniBand Fabric，以确保无缝互连体验。

此外，集群基于 Meta 自家的开放式 GPU Grand Teton AI 平台，可通过提高主机到 GPU 的带宽和计算能力，充分利用现代加速器的功能。

Meta 官方表示，这些集群的高性能网络结构的效率及关键存储决策、配合每个集群中的 H100 GPU，能够为更大、更复杂的模型提供支持，为通用人工智能产品开发、AI 研究的进步铺路。

据IT之家1 月报道，Meta 首席执行官扎克伯格宣布公司正在建设庞大的基础设施。“预估到今年年底，我们将拥有大约 35 万片英伟达 H100 加速卡，如果算上其它 GPU 的话，其计算能力相当于 60 万片 H100。”