Reports & Publications
64 GPU AI 运算性能对比测试 H3C DDC 架构 RoCE 交换机网络 vs. InfiniBand ⽹络
Sponsor: New H3C Technologies Co., Ltd
Login or create an account to download this report
Abstract
DDC(Distributed Disaggregated Chassis)技术是一种创新的网络架构设计,它打破传统的集中式机框交换机设计,采用分布式解耦的方法来提高数据中心网络的灵活性和可扩展性。DDC 基于 VOQ(虚拟输出队列)/CELL(信元)交换等先进硬件技术,提升了 NCP 和 NCF 之间链路的利用率和吞吐量,充分满足 HPC(High Performance Computing,高性能计算)、AI 等业务对传输网络提出的低转发时延、低丢包率的严格要求。
Tolly 测试评估了基于 64 GPU 的集合通信库 NVIDIA Collective Communication Library (NCCL) 以及大模型(Llama3)在不同网络架构下的表现。具体来说,测试对比 RDMA over Converged Ethernet(RoCE)与 InfiniBand(IB)两种网络架构在 64 GPU 环境上的性能差异。此外,在同为 RoCE 网络中,Tolly 工程师测试了 H3C DDC 技术相对于传统 ECMP 技术的优势。
NCCL 和大语言模型 Llama3 的测试结果表明,相同的业务场景下,RoCE 带来与 IB 相仿的性能和一致的业务体验。
NCCL Alltoall 测试结果表明,DDC 相比传统 ECMP hash 方式在总线带宽 (busbw) 上有较大优势。