LLM 训练系统深度技术综述:并行策略、内存优化与通信架构

涵盖 21 篇论文 | 时间跨度:2018.06 – 2025.12

一、领域全景图

LLM 训练系统研究的四大维度:

  • 并行策略框架(Parallelism):Megatron-LM, FSDP, Alpa, FlexFlow, TeraPipe
  • 内存优化(Memory Optimization):ZeRO 系列, LOMO, GaLore, 激活检查点
  • 通信与调度(Communication & Scheduling):TACCL, DeepSpeed Ulysses, Sequence Parallelism, Ring Attention
  • MoE 训练系统(MoE Training):Tutel, MiCS, Megatron-Core MoE
  • 微调加速(Fine-tuning Systems):LOMO, GaLore, ZeRO-Offload

二、并行策略框架

数据并行(Data Parallelism, DP)

  • 最早、最基础的并行方式,每 GPU 一份完整模型副本,梯度 AllReduce
  • PyTorch DDP → FSDP (ZeRO-3 的思路) 的演进路径

张量并行(Tensor Parallelism, TP)

  • 将单个 Transformer 层的权重矩阵沿 hidden 维切分
  • Megatron-LM 奠基之作(1D TP),后续演变出 2D/3D TP(序列并行)
  • 需节点内高带宽互联(NVLink),跨节点通信成本高

流水线并行(Pipeline Parallelism, PP)

  • 按层切分:不同 GPU 负责不同层的计算
  • GPipePipeDream1F1BTeraPipe 的演进路径
  • 核心挑战:气泡率(bubble ratio)与负载均衡

序列并行(Sequence Parallelism, SP)

  • 将 attention 维度沿序列长度切分
  • DeepSpeed Ulysses / Col-CoTran / Ring Attention

MoE 专家并行(Expert Parallelism, EP)

  • 专家放置在不同 GPU 上,路由门控决定 token 分配
  • Tutel / MiCS / DeepSpeed-MoE

三、技术谱系

类别方法代表性工作核心难点
数据并行梯度 AllReduceDDP → FSDP → ZeRO-DP通信开销随 GPU 数线性增长
张量并行层内矩阵切分Megatron-LM (1D-TP)需节点内 NVLink,跨节点受限
流水线并行按层切分 + 调度GPipe/1F1B/PipeDream气泡率 (>15-50%)、负载均衡
序列并行序列维度切分Ulysses/Ring Attention/SP通信模式复杂,跨节点效率
专家并行专家放置 + 路由Tutel/MiCS负载不均衡、动态性、通信

四、各方向深度分析

4.1 数据并行 → 混合精度 → ZeRO 演进

工作arXiv年份核心贡献
ZeRO1910.020542019ZeRO-DP (P_g, P_os, P_p) 三阶段、ZeRO-R(内存卸载)
ZeRO-Offload2101.068402021将优化器状态+梯度卸载至 CPU
ZeRO-Infinity2104.078572021将模型参数/梯度/优化器状态全卸载至 NVMe
ZeRO++2306.102092023分级通信:量化 + 分层 All2All + 直觉感知路由
FSDP2304.112772023PyTorch 原生 ZeRO-3 实现,混合分片+反向预取

4.2 张量并行与混合并行

工作arXiv年份核心贡献
Megatron-LM2104.0447320211D-TP + PP + DP 混合并行,层内 Transformer 切分方案
Alpa2201.120232022自动并行编译器:ILP 优化 intra/inter-operator 并行
FlexFlow1807.053582019超越 DP/MP 二分法,SOAP 搜索最优并行执行计划

4.3 流水线并行调度

工作arXiv年份核心贡献
GPipe1811.069652019同步流水线并行,micro-batch 分割 + 梯度累积
PipeDream1806.033772018异步 1F1B 调度,减少气泡率的非对称流水线
TeraPipe2102.079882021Token 级流水线并行,在序列维度做 PP

4.4 长序列训练

工作arXiv年份核心贡献
Sequence Parallelism2105.131202021序列维度切分 attention + 通信优化
DeepSpeed Ulysses2309.145092023Asymmetric All-to-All + ZeRO 集成,支撑百万级序列
Ring Attention2310.018892023类似 Ring AllReduce 的环形序列通信,无限上下文

4.5 MoE 训练系统

工作arXiv年份核心贡献
Tutel2206.033822022动态自适应 MoE 训练框架 + Drop Tolerance 策略
MiCS2205.001192022公有云上近线性扩展,等级化 EP 通信优化

4.6 通信优化

工作arXiv年份核心贡献
TACCL2111.048672021通信草图驱动的集合通信算法自动合成

4.7 微调/内存优化

工作arXiv年份核心贡献
LOMO2306.097822023降级优化器到 SGD + 融合梯度计算,全参微调省 10.8× 内存
GaLore2403.035072024梯度低秩投影,训练内存降 65%,媲美 Adam 精度
GaLore 22504.204372025扩展到大规模预训练场景,支持 8B 以上

五、横向对比

训练系统 vs 推理系统

维度训练系统推理系统(参考)
核心瓶颈通信 vs 计算显存带宽 vs 计算
并行策略DP+TP+PP+SP+EP 五维空间TP+PP+EP 为主
仿真工具匮乏(TGS 等不成熟)丰富(Vidur, LLMServingSim 等)
系统仿真精度尚无公认高精度训练仿真器LLMServingSim 2.0 达 0.95%
主流硬件A100/H100/B200 + InfiniBand同左,但更关注推理专用硬件
KV Cache不适用核心瓶颈
梯度通信AllReduce 核心瓶颈N/A

关键观察

  1. 训练系统仿真严重落后于推理:推理有 GenZ (5.8%), LLMServingSim 2.0 (0.95%) 等高精度建模,而训练系统仿真仍以实验测量为主,缺乏公认的统一框架
  2. 五维并行空间:训练并行策略搜索空间巨大 (DP × TP × PP × SP × EP),手动调优成本高昂
  3. Alpa 标杆:Alpa 的自动并行方案启发大量后续工作,但实际工业界仍主要依赖 Megatron-LM 的手动配置
  4. MoE 训练仍是开放问题:负载不均衡 + 动态路由 + 专家通信,现有方案各有取舍
  5. 长序列训练的兴起:Ring Attention 和 Ulysses 代表了两种不同的设计哲学(环形 vs 全对全)

六、推荐工具链

用户角色推荐组合
训练工程师Megatron-Core (基础设施) → ZeRO (显存优化) → DeepSpeed Ulysses (长序列)
系统研究者Alpa (自动并行) → FlexFlow (搜索空间) → TACCL (通信优化)
MoE 研究者Tutel (动态性) → MiCS (缩放性) → Megatron-Core (生产级)
微调优化者GaLore (预训练) → LOMO (全量微调) → ZeRO-Offload (资源受限)

七、未来趋势

  1. 训练仿真工具的出现:训练系统尚缺类似 GenZ/Vidur 级的仿真框架,这是重要的空白
  2. PD 分离思想在训练中的延伸:推理中 PD 分离思路启发「训练-推理生命周期统一调度」
  3. 异构训练:H100+B200+GB200 混合集群的自动并行分配
  4. FP8 训练精度仿真:低精度训练对收敛性和最终精度的影响建模
  5. 自动化并行编译器:Alpa 思路的工业化落地

论文速查表

#论文arXiv年份类型核心指标GitHub
1Megatron-LM2104.044732021TP+PP 框架335B LLaMA 在 2048 A100 训练NVIDIA/Megatron-LM ⭐9.6K
2ZeRO1910.020542019内存优化万亿参数训练,8× 吞吐提升microsoft/DeepSpeed ⭐37K
3ZeRO-Offload2101.068402021内存优化单 GPU 训练 100B 模型microsoft/DeepSpeed
4ZeRO-Infinity2104.078572021内存优化NVMe 卸载,200T 模型microsoft/DeepSpeed
5ZeRO++2306.102092023通信优化AllReduce 量化,~50% 加速microsoft/DeepSpeed
6FSDP2304.112772023DP 框架PyTorch 原生 ZeRO-3PyTorch 内置
7Alpa2201.120232022自动并行自动 ILP 搜索最优并行alpa-proj ⭐2.9K
8FlexFlow1807.053582019并行搜索超越 DP/MP, SOAP 搜索flexflow ⭐2.7K
9GPipe1811.069652019PP 调度微批 + 梯度累积,SOSP 2019-
10PipeDream1806.033772018PP 调度1F1B 异步调度,SOSP 2019-
11TeraPipe2102.079882021PP 调度Token 级流水线,近零气泡-
12Sequence Parallelism2105.131202021序列并行序列维度切分ColossalAI
13DeepSpeed Ulysses2309.145092023序列并行百万级 token 训练microsoft/DeepSpeed
14Ring Attention2310.018892023序列并行环形通信,近无限上下文haoliu-1999/RingAttention
15Tutel2206.033822022MoE 训练动态自适应 MoEmicrosoft/tutel
16MiCS2205.001192022MoE 训练公有云近线性 MoE 扩展-
17TACCL2111.048672021通信优化通信草图自动合成通信算法-
18LOMO2306.097822023微调优化全参微调省 10.8× 显存OpenAI/LOMO ⭐6K
19GaLore2403.035072024微调优化梯度低秩投影,降 65% 内存jiaweizzhao/GaLore
20GaLore 22504.204372025预训练优化扩展到大模型预训练-

相关笔记