📚 论文分析目录索引
共计 49 篇论文/工具分析 | 按领域分五大子目录
Knowledge/论文分析/
├── 📚 论文分析目录索引.md ← 本文件
├── 推理系统/ ← LLM 推理系统(12 篇)
├── 训练系统/ ← LLM 训练系统(21 篇)
├── 芯片建模/ ← 芯片性能建模(11 篇)
├── 推荐系统/ ← 推荐系统性能建模(5 篇)
└── 缓存系统/ ← 缓存性能建模与仿真(2 篇)
🟦 一、LLM 推理系统 → 推理系统/
涵盖:仿真模拟、在线仿真、解析建模、系统设计与优化
全景综述
仿真/模拟工具
在线仿真
| # | 论文 | arXiv | 精度 | 分析笔记 |
|---|
| 6 | LLM-Emu — Profile-driven 在线仿真,运行真实 vLLM | 2605.00616 | <5% | LLM-Emu 技术分析 |
解析建模
| # | 论文 | arXiv | 精度 | 分析笔记 |
|---|
| 7 | GenZ — Roofline 解析式建模,唯一支持 MoE+Mamba | 2406.01698 | 5.82% | GenZ 深度技术分析 |
系统设计与部署
🏆 精度排名:LLMServingSim 2.0 (0.95%) → LLM-Emu (<5%) → GenZ (5.82%) → Vidur (<9%) → LLMServingSim 1.0 (14.7%)
🟩 二、LLM 训练系统 → 训练系统/
涵盖:并行框架、内存优化、流水线并行、长序列训练、MoE 训练、通信优化、微调优化、性能建模仿真
全景综述
并行策略框架
| # | 论文 | arXiv | 类型 | 分析笔记 |
|---|
| 1 | Megatron-LM — 1D-TP + PP + DP 混合并行 | 2104.04473 | ⭐9.6K, NVIDIA | Megatron-LM 技术分析 |
| 2 | Alpa — 自动并行编译器 (OSDI 2022) | 2201.12023 | ⭐2.9K, Berkeley | Alpa 技术分析 |
| 3 | FlexFlow — SOAP 并行搜索空间 | 1807.05358 | Stanford/Berkeley | FlexFlow 技术分析 |
内存优化 (ZeRO 系列)
流水线并行
| # | 论文 | arXiv | 核心创新 | 分析笔记 |
|---|
| 9 | GPipe — 同步流水线并行 (NeurIPS 2019) | 1811.06965 | 微批+梯度累积 | GPipe 技术分析 |
| 10 | PipeDream — 异步 1F1B 调度 (SOSP 2019) | 1806.03377 | Weight Stashing | PipeDream 技术分析 |
| 11 | TeraPipe — Token 级流水线并行 | 2102.07988 | 近零气泡 | TeraPipe 技术分析 |
长序列训练
MoE 训练系统
| # | 论文 | arXiv | 核心创新 | 分析笔记 |
|---|
| 15 | Tutel — 动态自适应 MoE 框架 | 2206.03382 | 微软/Berkeley | Tutel 技术分析 |
| 16 | MiCS — 公有云上近线性 MoE 缩放 | 2205.00119 | AWS | MiCS 技术分析 |
通信优化
| # | 论文 | arXiv | 核心创新 | 分析笔记 |
|---|
| 17 | TACCL — 通信草图合成 (OSDI 2022) | 2111.04867 | 优于 NCCL 2-5× | TACCL 技术分析 |
微调/训练内存优化
| # | 论文 | arXiv | 核心创新 | 分析笔记 |
|---|
| 18 | LOMO — 融合梯度计算,全参微调省 10.8× | 2306.09782 | ⭐6K | LOMO 技术分析 |
| 19 | GaLore — 梯度低秩投影,降 65% 内存 | 2403.03507 | Caltech/Meta | GaLore 技术分析 |
性能建模仿真(NEW)
| # | 论文 | arXiv | 发表 | 类型 | 分析笔记 |
|---|
| 1 | Universal Perf Model — 多GPU训练通用性能模型 (Meta/AMD/NVIDIA) | 2404.12674 | arXiv 2024 | 解析建模 | Universal Performance Model 技术分析 |
| 2 | NeuSight — GPU性能预测(训练+推理,未见GPU上<10%误差) | 2407.13853 | ASPLOS 2025 | ML驱动建模 | NeuSight GPU 性能预测 技术分析 |
| 3 | Pollux — Goodput优化集群调度 (CMU, OSDI 2021) | 2008.12260 | OSDI 2021 | 调度+建模 | Pollux 技术分析 |
| 4 | Gavel — 异构加速器感知调度 (Stanford/MS, OSDI 2020) | 2008.09213 | OSDI 2020 | 调度+建模 | Gavel 技术分析 |
| 5 | Chakra — 标准化Execution Trace + 模拟 (Meta/GT) | 2305.14516 | HotOS 2023 | Trace仿真 | Chakra 技术分析 |
| 6 | ATLAHS — AI/HPC/存储网络仿真工具链 (ETH) | 2505.08936 | arXiv 2025 | 网络仿真 | ATLAHS 技术分析 |
| 7 | Themis — 带宽感知Collective调度 (GT/Intel/Meta, ISCA 2022) | 2110.04478 | ISCA 2022 | 通信建模 | Themis 技术分析 |
| 8 | 瞬时云建模 — 临时GPU服务器分布式训练模型 (WPI) | 2004.03072 | ICAC 2020 | 解析+经验 | 瞬时云训练建模 技术分析 |
📖 综述笔记:训练系统性能建模仿真综述 — 9篇论文横评:解析建模 / Trace仿真 / 调度感知建模三大路线
🟪 三、芯片性能建模与仿真 → 芯片建模/
涵盖:CPU 全系统、GPU/GPGPU、NPU 加速器、内存/DRAM、功耗、ML 驱动建模
全景综述
CPU 全系统仿真
GPU/GPGPU 仿真
DNN/NPU 加速器仿真
内存/功耗建模
ML 驱动性能建模
云原生工作负载分析
其他重要工具(待分析)
| 工具 | 发表 | 特点 |
|---|
| SimpleScalar | DAC 1996 | 最早的 superscalar 仿真器 |
| Sniper | JILP 2011 | Interval simulation,10× 快于 gem5 |
| ZSIM | ISCA 2017 | 快速 GPU 仿真,10× 快于 GPGPU-Sim |
| Multi2Sim | ISPASS 2012 | CPU+GPU 异构全系统 |
| DRAMsim3 | HPCA 2020 | DDR4/HBM2e 周期精确 |
| CACTI | 1996-2016 | 缓存/内存访问时间模型 |
| DSENT | DATE 2012 | 片上网 (NoC) 功耗+面积 |
| SimPoint | MICRO 2002 | 仿真加速,代表性片段 |
| Timeloop | arXiv 2019 | DNN 映射搜索 (与 MAESTRO 互补) |
| Eyeriss | JSSC 2017 | 能效优先 DNN 加速器 |
| Platypus | ASPLOS 2019 | 贝叶斯加速器设计空间探索 |
🟨 四、推荐系统性能建模 → 推荐系统/
涵盖:DLRM 架构、训练性能模型、推理加速、训练框架
全景综述
| # | 论文 | arXiv | 类型 | 核心贡献 | 分析笔记 |
|---|
| 1 | DLRM — 深度学习推荐模型标准 (Meta) | 1906.00091 | 架构 | 稀疏/密集/交互三模块定义 | DLRM 技术分析 |
| 2 | DLRM 性能模型 — GPU 训练解析模型 | 2201.07821 | 性能建模 | 首个 DLRM 训练性能模型 | DLRM 训练性能模型分析 |
| 3 | MicroRec — RecSys 推理加速 (ETH) | 2010.05894 | 推理加速 | HW+数据结构联合优化,2-5× | MicroRec 分析 |
| 4 | Merlin HugeCTR — GPU 加速框架 (NVIDIA) | 2210.08803 | 训练框架 | GPU Embedding 分片训练 | Merlin HugeCTR 分析 |
🟫 五、缓存系统性能建模与仿真 → 缓存系统/
涵盖:KV Cache、TB 级 Embedding Table、多模态 MM Cache 的性能建模
全景洞察
- 缓存系统性能建模洞察分析 — 三大缓存领域(KV Cache / Embedding / MM Cache)的系统性对比和空白分析
关键工具
| # | 论文/工具 | 类型 | 核心贡献 | 分析笔记 |
|---|
| 1 | Tair KVCache HiSim — 阿里云 KVCache 管理系统 | 推理仿真 | KV Cache 管理 + Optimizer (逐出策略仿真) + HiSim (推理仿真实测<5%误差) | Tair KVCache & HiSim 分析 |
| 2 | KV Cache 策略仿真 (Optimizer) — 阿里云 | 缓存行为仿真 | Trace 回放模拟 LRU/RandomLRU/LeafAwareLRU/TTL 逐出策略 | (见上方 Tair 笔记) |
🔗 六、跨域关联
三层次仿真互补链
gem5 / GPGPU-Sim MAESTRO / SCALE-Sim GenZ / Vidur / LLMServingSim
│ │ │
▼ ▼ ▼
微架构设计 DNN加速器架构 LLM推理/训练系统
(Pipeline, Cache) (Systolic, Dataflow) (调度, 并行策略)
│ │ │
└────────────────────────┴───────────────────────────┘
│
▼
完整设计验证链:
Roofline + McPAT + Ramulator + ...
交叉引用
最后更新:2026-05-28 | 共计 59 篇分析笔记 + 5 篇综述 = 64 篇文件