Meta进一步揭示了Llama3训练的演变方式

2024-03-22 14:39:13科技专一的悟空

Meta公布了有关其AI训练基础设施的详细信息，透露其目前依赖近50,000个NvidiaH100GPU来训练其开源Llama3LLM。

该公司表示，到2024年底，将拥有超过350,000个NvidiaH100GPU，与其他来源的硬件相结合时，计算能力相当于近600,000个H100。

这些数字是在Meta分享其24,576个GPU数据中心规模集群的详细信息时披露的。

该公司解释说：“这些集群支持我们当前和下一代，包括Llama3(Llama2的后继者)、我们公开发布的LLM，以及GenAI和其他领域的人工智能研究和开发。”

这些集群构建在GrandTeton(以怀俄明州国家公园命名)上，这是一个内部设计的开放GPU硬件平台。GrandTeton将电源、控制、计算和结构接口集成到单个机箱中，以实现更好的整体性能和可扩展性。

这些集群还具有高性能网络结构，使其能够支持比以前更大、更复杂的模型。Meta表示，一个集群使用基于Arista7800的远程直接内存访问网络结构解决方案，而另一个集群则采用NVIDIAQuantum2InfiniBand结构。两种解决方案都互连400Gbps端点。

“这些集群中高性能网络结构的效率、一些关键存储决策，再加上每个集群中的24,576个NVIDIATensorCoreH100GPU，使得两个集群版本都能够支持比RSC并为GenAI产品开发和人工智能研究的进步铺平道路，”Meta说。

声明：本站所有文章资源内容，如无特殊说明或标注，均为采集网络资源。如若本站内容侵犯了原著者的合法权益，可联系本站删除。