Sequence Parallelism: Long Sequence Training from System Perspective

一、论文概览

属性	内容
标题	Sequence Parallelism: Long Sequence Training from System Perspective
arXiv	2105.13120
机构	NUS (ColossalAI 团队)
代码	ColossalAI (内置)

将序列 [B, S, D] 沿 S 维度切分到 N 个 GPU：

SP 与 TP 使用相同的通信域，在 TP 的通信 (AllReduce) 中嵌入 SP 的 AllGather，实现零额外通信开销。