ZeRO++: Extremely Efficient Collective Communication for Giant Model Training

一、论文概览

属性内容
标题ZeRO++: Extremely Efficient Collective Communication for Giant Model Training
arXiv2306.10209
机构Microsoft

核心贡献

  1. 量化通信(Quantized AllReduce):FP16 → INT4/INT8 压缩梯度
  2. 分层 All-to-All:减少 AllGather 通信量,利用节点内 NVLink
  3. 分区化参数通信:每个 GPU 只拉取自己需要的分片

二、技术方法

三大优化

优化技术效果
qAllReduce梯度量化 + 分层聚合通信量减半
hpzAllGather分层点对点 AllGather消除等传输效应
pzAllToAll分区 All-to-All减少跨节点传输

在 384 A100 上达 1.5× 加速,通信开销降低 40-60%。


相关链接