Gavel: 异构感知的深度学习集群调度策略

一、论文概览

属性	内容
标题	Heterogeneity-Aware Cluster Scheduling Policies for Deep Learning Workloads
arXiv	2008.09213 (OSDI 2020)
机构	Stanford University, Microsoft Research
源码	https://github.com/stanford-futuredata/gavel (Rust)

异构感知调度框架：首次系统性地将加速器异构性（GPU/TPU/FPGA之间的性能差异）纳入DL集群调度策略设计中
有效吞吐量（Effective Throughput）：将”分配矩阵A”（jobs × accelerators）与”每job在每类加速器上的吞吐量”结合，形式化为优化问题
空间共享感知：支持GPU多进程空间共享（MPS/MIG），能在job之间按比例分配GPU资源
轮次调度机制：支持分时调度和空间共享的混合调度策略
吞吐预测器：基于profile数据预测job在各类加速器上的性能

Gavel的核心抽象是分配矩阵A，其中A[i][k]表示分配给第i个job的第k类加速器的资源比例（0-1之间的连续值）。多种调度策略均可表示为：

maximize/minimize  f(A, S)
subject to  Σᵢ A[i][k] ≤ 1, ∀k  (不超过每种加速器总容量)
            0 ≤ A[i][k] ≤ 1       (非负分配)

其中S是所有job的预期完成时间集合。

Gavel是异构DL集群调度的奠基之作（OSDI 2020），提出了将加速器异构性纳入调度优化的范式。其核心洞察——“不同模型在不同加速器上性能差异巨大”——在当今GPU代际加速迭代的背景下尤为关键。有效吞吐量的数学框架清晰优雅，为后续Sia、Pallavi等工作奠定了基础。