训练系统性能建模仿真 — 全景综述
训练系统的性能建模与仿真,指通过解析模型、Trace回放仿真、网络模拟等手段,在真实部署前预测分布式训练的时间和吞吐。本文覆盖 9 篇论文,分三大路线:解析性能模型 → Trace仿真 → 集群调度感知建模。
论文总览
一、解析性能模型 (Analytical Models)
| # | 论文 | arXiv | 发表 | 类型 | 核心思想 | 精度 | 分析笔记 |
|---|
| 1 | Universal Perf Model — 多GPU训练通用性能模型 (Microsoft) | 2404.12674 | arXiv 2024 | 解析式 | 计算/通信/CPU-GPU同步三因子分离建模 | — | Universal Performance Model 技术分析 |
| 2 | DLRM 性能模型 — 推荐模型训练解析模型 (Meta) | 2201.07821 | ISPASS 2022 | 解析式 | 设备活跃时间+空闲时间分别建模,CPU边界瓶颈 | — | DLRM 训练性能模型分析 |
| 3 | GPU 性能预测 — 训练推理通用 GPU 预测器 (Microsoft) | 2407.13853 | MICRO 2024 | ML驱动 | GPU kernel执行时间预测 + 模型迁移预测 | — | NeuSight GPU 性能预测 技术分析 |
| 4 | 分布式瞬时云建模 — Transient Cloud 分布式训练建模 (WPI) | 2004.03072 | ICAC 2020 | 解析+经验 | 抢占式实例的收敛时间-成本权衡模型 | — | 瞬时云训练建模 技术分析 |
二、Trace 与 Chema 仿真 (Trace-based Simulation)
| # | 论文 | arXiv | 发表 | 类型 | 核心思想 | 精度 | 分析笔记 |
|---|
| 5 | Chakra — 标准化执行Trace + Sim (Microsoft) | 2305.14516 | HotOS 2023 | Trace仿真 | 统一Execution Trace格式,支持simulator和co-design | — | Chakra 技术分析 |
| 6 | ATLAHS — AI/HPC/存储网络模拟器 (ETH Zurich) | 2505.08936 | arXiv 2025 | 网络仿真 | 应用级网络模拟,端到端Trace驱动 | — | ATLAHS 技术分析 |
三、通信与集群调度建模 (Communication & Scheduling-aware Modeling)
| # | 论文 | arXiv | 发表 | 类型 | 核心思想 | 精度 | 分析笔记 |
|---|
| 7 | Themis — 带宽感知Collective调度 (Georgia Tech/MS) | 2110.04478 | E2DC 2021 | 解析模型 | 拓扑感知Collective调度,网络带宽精确建模 | — | Themis 技术分析 |
| 8 | Pollux — Goodput优化集群调度 (CMU) | 2008.12260 | OSDI 2021 | 调度+建模 | Job级并行度 + Cluster级调度联合优化 | — | Pollux 技术分析 |
| 9 | Gavel (异构感知调度) — 异构加速器调度 (Stanford/MS) | 2008.09213 | OSDI 2020 | 调度+建模 | 异构GPU性能模型驱动的调度策略 | — | Gavel 技术分析 |
路线对比
| 维度 | 解析建模 | Trace/Chema仿真 | 调度感知建模 |
|---|
| 典型代表 | Universal Perf Model | Chakra | Pollux |
| 精度 | 中 (5-20%) | 高 (<5%) | 中高 |
| 速度 | 秒级 | 分钟级 | 秒级 |
| 可迁移性 | 跨模型/硬件 | 需重新Trace | 需重新Profile |
| 适用场景 | 快速估算、设计空间探索 | 精确仿真、瓶颈分析 | 集群运营、调度决策 |
空白与趋势
- 缺少端到端训练仿真框架:Chakra 提供了Trace格式但缺少完整的仿真器,ATLAHS 侧重网络而非计算,尚无类似推理领域 Vidur 的开源训练仿真器
- 3D并行建模难:现有模型多为 DP 或 PP,TP+PP+DP 混合并行的精确建模仍是开放问题
- GPU 代际迁移预测:GPU 预测 (2407.13853) 方向值得关注,新的硬件可用前预测性能
- AI-native 仿真器:ML 驱动的性能预测器 (如 Ithemal) 尚未在分布式训练领域充分应用
相关笔记