FSDP: Experiences on Scaling Fully Sharded Data Parallel

一、论文概览

属性	内容
标题	PyTorch FSDP: Experiences on Scaling Fully Sharded Data Parallel
arXiv	2304.11277
机构	Meta (PyTorch Team)
代码	PyTorch Distributed (内置)

在反向传播中，fsdp_pre_backward_hook 提前预取下一层的参数 AllGather，与当前层的计算 overlap。相比 ZeRO-3 的实现，反向预取约减少 20% 的通信等待时间。

在 Meta 的生产集群上验证：

FSDP 的重要意义在于将 ZeRO-3 的显存优化带入 PyTorch 主流生态，向所有 PyTorch 用户开放了大规模训练能力。它在训练小模型时引入的开销比 ZeRO 更可控（通过混合分片策略），但在极致大模型场景下，Megatron-LM 的 TP+PP 仍不可替代。