Meta公布了有关其AI训练基础设施的详细信息,透露其目前依赖近50,000个NvidiaH100GPU来训练其开源Llama3LLM。

Meta进一步揭示了Llama3训练的演变方式

该公司表示,到2024年底,将拥有超过350,000个NvidiaH100GPU,与其他来源的硬件相结合时,计算能力相当于近600,000个H100。

这些数字是在Meta分享其24,576个GPU数据中心规模集群的详细信息时披露的。

该公司解释说:“这些集群支持我们当前和下一代,包括Llama3(Llama2的后继者)、我们公开发布的LLM,以及GenAI和其他领域的人工智能研究和开发。”

这些集群构建在GrandTeton(以怀俄明州国家公园命名)上,这是一个内部设计的开放GPU硬件平台。GrandTeton将电源、控制、计算和结构接口集成到单个机箱中,以实现更好的整体性能和可扩展性。

这些集群还具有高性能网络结构,使其能够支持比以前更大、更复杂的模型。Meta表示,一个集群使用基于Arista7800的远程直接内存访问网络结构解决方案,而另一个集群则采用NVIDIAQuantum2InfiniBand结构。两种解决方案都互连400Gbps端点。

“这些集群中高性能网络结构的效率、一些关键存储决策,再加上每个集群中的24,576个NVIDIATensorCoreH100GPU,使得两个集群版本都能够支持比RSC并为GenAI产品开发和人工智能研究的进步铺平道路,”Meta说。