64 GPU AI 运算性能对比测试 H3C RoCE 网络 (S12500CR 系列交换机) vs. InfiniBand ⽹络

Sponsor: New H3C Technologies Co., Ltd
64 GPU AI 运算性能对比测试 H3C RoCE 网络 (S12500CR 系列交换机)

Abstract

H3C S12500CR 是新华三技术有限公司面向智算大模型场景以及高算数据中心场景推出的新一代旗舰交换机;硬件设计上所采用的 CLOS+ 正交硬件架构,实现了网络节点和计算节点的速率融合,为网络和 AI 计算提供了 100% 无损的数据通道,支持高密度高速率端口板卡:可以满足超大数据中心和 AIGC 算力网络高密度服务器无收敛接入的组网需求。

Tolly 测试评估了基于 64 GPU 的集合通信库 NVIDIA Collective Communication Library (NCCL) 以及大模型(Llama3)在不同网络架构下的表现。具体来说,测试对比采用 H3C S12508CR 交换机的 RDMA over Converged Ethernet(RoCE)网络与采用 NVIDIA QM9700 交换机的 InfiniBand(IB)网络架构在 64 GPU 环境上的性能差异。测试中的 IB 网络采用如图 1 右侧拓扑所示的多轨组网。RoCE 网络中,采用 H3C S12508CR 交换机直连所有服务器。

NCCL 和大语言模型 Llama3 的测试结果表明,相同的业务场景下,RoCE 带来与 IB 相仿的性能和一致的业务体验。