DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme Long Sequence Transformer Models

一、论文概览

属性	内容
标题	DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme Long Sequence Transformer Models
arXiv	2309.14509
机构	Microsoft
代码	DeepSpeed (内置)

传统 Ring Attention：环形 AllReduce 通信，延迟随节点数线性增长。

Ulysses 的核心新思路：Asymmetric All-to-All。每个 GPU 持有序列的一个子段和注意力的一个子集，通过 All-to-All 交换数据使得每个 GPU 获得全局序列的局部注意力。

Ulysses 的通信与 ZeRO-3 参数 AllGather 独立可 overlap，总通信开销近似等于二者的 max。

在 64 A100 上：