TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale Language Models

一、论文概览

属性内容
标题TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale Language Models
arXiv2102.07988
机构UC Berkeley

核心贡献

  1. Token 级流水线并行:在序列维度上的不同 token 间做 PP,而非层间
  2. 近零气泡率:token 级细粒度分割几乎消除流水线气泡
  3. 兼容 Megatron TP:与张量并行正交组合

二、技术方法

2.1 Token 级调度

Causal LM(GPT 风格)的序列中,token t 的计算依赖 token 1..t-1。TeraPipe 利用这种自回归依赖结构,在序列中划分多个 token 子序列,每个 GPU 处理一个子序列。

2.2 气泡率对比

方法气泡率公式典型值 (L=96, N=16, S=2048)
GPipe(K-1)/M~50%
PipeDream (1F1B)(K-1)/(M+K-1)~30%
TeraPipe~0<1%

2.3 实验

在 16 GPU 上训练 GPT-6.7B 模型:

  • 与 Megatron-LM TP 组合后,吞吐提升 4.6×
  • 气泡率接近理论下界

相关链接