Sequence Parallelism: Long Sequence Training from System Perspective

一、论文概览

属性内容
标题Sequence Parallelism: Long Sequence Training from System Perspective
arXiv2105.13120
机构NUS (ColossalAI 团队)
代码ColossalAI (内置)

核心贡献

  1. 序列维度切分:在序列维度上切分 attention + FFN 层
  2. 通信优化:与 TP 共享通信域,减少额外通信开销
  3. ColossalAI 集成:作为 ColossalAI 框架的内置序列并行方案

二、技术方法

序列切分

将序列 [B, S, D] 沿 S 维度切分到 N 个 GPU:

  • 每个 GPU 持有 S/N 个 token
  • Attention 中通过 AllGather 收集完整序列做 softmax
  • FFN 中每个 token 独立计算,无需通信

与 TP 的组合

SP 与 TP 使用相同的通信域,在 TP 的通信 (AllReduce) 中嵌入 SP 的 AllGather,实现零额外通信开销。


相关链接