GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection

一、论文概览

属性	内容
标题	GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection
arXiv	2403.03507
机构	Caltech, UT Austin, Meta, MIT-IBM

GaLore 的作者发现：在大型深度学习训练中，梯度的奇异值分布具有长尾特性，少量大奇异值贡献了大部分范数。因此，可将梯度投影到低秩子空间后再使用 Adam 优化，大幅降低优化器状态（momentum/variance）的存储量。

方法	训练内存 (7B)	与 Adam 精度差距	可做预训练
Adam Full	~58GB	基准	✅
GaLore	~20GB	<1%	✅
LOMO	~7.8GB	5-10% (SGD)	❌
LoRA	~14GB	2-5%	❌

GaLore 2 进一步扩展到更大规模的预训练：