ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep Learning

一、论文概览

属性内容
标题ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep Learning
arXiv2104.07857
机构Microsoft

核心贡献

  1. NVMe 卸载:将 GPU → CPU → NVMe SSD 三级存储层级联合管理
  2. 无限显存抽象:模型大小不再受 GPU 显存限制
  3. 200T 参数训练验证:在 512 GPU 上验证超大规模可行性

二、技术方法

三级存储层次

层级设备带宽容量
L1GPU HBM~2 TB/s16-80GB
L2CPU DRAM~50 GB/s256GB-2TB
L3NVMe SSD~3-7 GB/s1-10TB

核心创新

  • 参数预取:基于数据流分析预测参数访问模式,提前从 NVMe 加载
  • 基于分区的卸载调度:将模型分片成独立分区,流水线卸载
  • 计算-IO overlap:与 ZeRO-Offload 类似,三流异步

在 512 V100 GPU 上验证了 200T 参数训练的可行性。


相关链接