训练系统性能建模仿真 — 全景综述

训练系统的性能建模与仿真,指通过解析模型Trace回放仿真网络模拟等手段,在真实部署前预测分布式训练的时间和吞吐。本文覆盖 9 篇论文,分三大路线:解析性能模型 → Trace仿真 → 集群调度感知建模。

论文总览

一、解析性能模型 (Analytical Models)

#论文arXiv发表类型核心思想精度分析笔记
1Universal Perf Model — 多GPU训练通用性能模型 (Microsoft)2404.12674arXiv 2024解析式计算/通信/CPU-GPU同步三因子分离建模Universal Performance Model 技术分析
2DLRM 性能模型 — 推荐模型训练解析模型 (Meta)2201.07821ISPASS 2022解析式设备活跃时间+空闲时间分别建模,CPU边界瓶颈DLRM 训练性能模型分析
3GPU 性能预测 — 训练推理通用 GPU 预测器 (Microsoft)2407.13853MICRO 2024ML驱动GPU kernel执行时间预测 + 模型迁移预测NeuSight GPU 性能预测 技术分析
4分布式瞬时云建模 — Transient Cloud 分布式训练建模 (WPI)2004.03072ICAC 2020解析+经验抢占式实例的收敛时间-成本权衡模型瞬时云训练建模 技术分析

二、Trace 与 Chema 仿真 (Trace-based Simulation)

#论文arXiv发表类型核心思想精度分析笔记
5Chakra — 标准化执行Trace + Sim (Microsoft)2305.14516HotOS 2023Trace仿真统一Execution Trace格式,支持simulator和co-designChakra 技术分析
6ATLAHS — AI/HPC/存储网络模拟器 (ETH Zurich)2505.08936arXiv 2025网络仿真应用级网络模拟,端到端Trace驱动ATLAHS 技术分析

三、通信与集群调度建模 (Communication & Scheduling-aware Modeling)

#论文arXiv发表类型核心思想精度分析笔记
7Themis — 带宽感知Collective调度 (Georgia Tech/MS)2110.04478E2DC 2021解析模型拓扑感知Collective调度,网络带宽精确建模Themis 技术分析
8Pollux — Goodput优化集群调度 (CMU)2008.12260OSDI 2021调度+建模Job级并行度 + Cluster级调度联合优化Pollux 技术分析
9Gavel (异构感知调度) — 异构加速器调度 (Stanford/MS)2008.09213OSDI 2020调度+建模异构GPU性能模型驱动的调度策略Gavel 技术分析

路线对比

维度解析建模Trace/Chema仿真调度感知建模
典型代表Universal Perf ModelChakraPollux
精度中 (5-20%)高 (<5%)中高
速度秒级分钟级秒级
可迁移性跨模型/硬件需重新Trace需重新Profile
适用场景快速估算、设计空间探索精确仿真、瓶颈分析集群运营、调度决策

空白与趋势

  1. 缺少端到端训练仿真框架:Chakra 提供了Trace格式但缺少完整的仿真器,ATLAHS 侧重网络而非计算,尚无类似推理领域 Vidur 的开源训练仿真器
  2. 3D并行建模难:现有模型多为 DP 或 PP,TP+PP+DP 混合并行的精确建模仍是开放问题
  3. GPU 代际迁移预测:GPU 预测 (2407.13853) 方向值得关注,新的硬件可用前预测性能
  4. AI-native 仿真器:ML 驱动的性能预测器 (如 Ithemal) 尚未在分布式训练领域充分应用

相关笔记