Reports & Publications

64 GPU AI 运算性能对比测试及自动化运维能力测试 H3C RoCE 网络 AD-DC 路径导航方案 vs. 传统 ECMP 方案

Sponsor: New H3C Technologies Co., Ltd
H3C RoCE 网络 AD-DC 路径导航方案 vs. 传统 ECMP 方案

Abstract

H3C AD-DC 路径导航方案,是 H3C 在智算网络创新的一种流量负载均衡调优解决⽅案。

H3C AD-DC 通过感知网络拓扑、服务器拓扑以及作业通信流量特征等多元信息,从全局视角对服务器侧、⽹络侧进⾏业务流量路径主动规划,并可以根据实际网络运行情况动态调整调度策略,以最大化的避免网络拥塞,达到智算流量负载分担最优效果,⼤幅提升模型训练效率。

Tolly 测试采⽤了 64 个 NVIDIA  GPU 卡,验证了路径导航方案和传统 ECMP ⽅案在相同业务场景的性能表现。测试结果说明,相同的业务场景下,路径导航⽅案相比传统 ECMP ⽅案在带宽性能 busbw 上有较⼤幅度提升。

同时 AD-DC 可通过对端网关键指标数据采集监控,实现训练全过程的运维保障。通过端网数据的关联对比推理分析,感知分析故障前后环境中关键指标的变化,明确定位故障根因及解决方案,大幅提升模型训练的稳定性。