📚 论文分析目录索引

共计 49 篇论文/工具分析 | 按领域分五大子目录

Knowledge/论文分析/
├── 📚 论文分析目录索引.md          ← 本文件
├── 推理系统/                      ← LLM 推理系统(12 篇)
├── 训练系统/                      ← LLM 训练系统(21 篇)
├── 芯片建模/                      ← 芯片性能建模(11 篇)
├── 推荐系统/                      ← 推荐系统性能建模(5 篇)
└── 缓存系统/                      ← 缓存性能建模与仿真(2 篇)

🟦 一、LLM 推理系统 → 推理系统/

涵盖:仿真模拟、在线仿真、解析建模、系统设计与优化

全景综述

仿真/模拟工具

#论文arXiv精度分析笔记
1Vidur — 微软大规模推理仿真框架2405.05465<9%Vidur 深度技术分析
2LLMServingSim 1.0 — KAIST HW/SW协同仿真2408.0549914.7%LLMServingSim 1.0 技术分析
3LLMServingSim 2.0 — 超高精度统一仿真2602.230360.95%LLMServingSim 2.0 技术分析
4Frontier — 港中文/StepFun 精细化算子仿真2508.03148TBDFrontier 技术分析
5APEX — Stanford 动态感知并行策略搜索2411.17651TBDAPEX 技术分析

在线仿真

#论文arXiv精度分析笔记
6LLM-Emu — Profile-driven 在线仿真,运行真实 vLLM2605.00616<5%LLM-Emu 技术分析

解析建模

#论文arXiv精度分析笔记
7GenZ — Roofline 解析式建模,唯一支持 MoE+Mamba2406.016985.82%GenZ 深度技术分析

系统设计与部署

#论文arXiv亮点分析笔记
8Splitwise — Prefill/Decode 相分离奠基作2311.18677PD 分离鼻祖Splitwise 技术分析
9Mooncake — KV-centric 分离架构2407.00079⭐5285, FAST Best PaperMooncake 技术分析
10Sarathi-Serve — Chunked-prefill 调度2403.02310⭐496, 微软Sarathi-Serve 技术分析
11Debunk CUDA Myth — Gaudi vs A100 公平对比2501.00210ISCA-52 2025Debunk CUDA Myth 技术分析

🏆 精度排名:LLMServingSim 2.0 (0.95%) → LLM-Emu (<5%) → GenZ (5.82%) → Vidur (<9%) → LLMServingSim 1.0 (14.7%)


🟩 二、LLM 训练系统 → 训练系统/

涵盖:并行框架、内存优化、流水线并行、长序列训练、MoE 训练、通信优化、微调优化、性能建模仿真

全景综述

并行策略框架

#论文arXiv类型分析笔记
1Megatron-LM — 1D-TP + PP + DP 混合并行2104.04473⭐9.6K, NVIDIAMegatron-LM 技术分析
2Alpa — 自动并行编译器 (OSDI 2022)2201.12023⭐2.9K, BerkeleyAlpa 技术分析
3FlexFlow — SOAP 并行搜索空间1807.05358Stanford/BerkeleyFlexFlow 技术分析

内存优化 (ZeRO 系列)

#论文arXiv类型分析笔记
4ZeRO — 三阶段分片,万亿参数训练1910.02054⭐37K, 微软ZeRO 技术分析
5ZeRO-Offload — CPU 卸载优化器+梯度2101.06840单GPU 100BZeRO-Offload 技术分析
6ZeRO-Infinity — NVMe 三级存储卸载2104.07857200T参数ZeRO-Infinity 技术分析
7ZeRO++ — 量化通信优化2306.102091.5×加速ZeRO++ 技术分析
8FSDP — PyTorch 原生 ZeRO-32304.11277Meta, 内置 PyTorchFSDP 技术分析

流水线并行

#论文arXiv核心创新分析笔记
9GPipe — 同步流水线并行 (NeurIPS 2019)1811.06965微批+梯度累积GPipe 技术分析
10PipeDream — 异步 1F1B 调度 (SOSP 2019)1806.03377Weight StashingPipeDream 技术分析
11TeraPipe — Token 级流水线并行2102.07988近零气泡TeraPipe 技术分析

长序列训练

#论文arXiv核心创新分析笔记
12Sequence Parallelism — 序列维度切分2105.13120ColossalAISequence Parallelism 技术分析
13DeepSpeed Ulysses — All-to-All 序列通信2309.14509微软,百万序列DeepSpeed Ulysses 技术分析
14Ring Attention — 环形 KV block 通信2310.01889Berkeley,近无限上下文Ring Attention 技术分析

MoE 训练系统

#论文arXiv核心创新分析笔记
15Tutel — 动态自适应 MoE 框架2206.03382微软/BerkeleyTutel 技术分析
16MiCS — 公有云上近线性 MoE 缩放2205.00119AWSMiCS 技术分析

通信优化

#论文arXiv核心创新分析笔记
17TACCL — 通信草图合成 (OSDI 2022)2111.04867优于 NCCL 2-5×TACCL 技术分析

微调/训练内存优化

#论文arXiv核心创新分析笔记
18LOMO — 融合梯度计算,全参微调省 10.8×2306.09782⭐6KLOMO 技术分析
19GaLore — 梯度低秩投影,降 65% 内存2403.03507Caltech/MetaGaLore 技术分析

性能建模仿真(NEW)

#论文arXiv发表类型分析笔记
1Universal Perf Model — 多GPU训练通用性能模型 (Meta/AMD/NVIDIA)2404.12674arXiv 2024解析建模Universal Performance Model 技术分析
2NeuSight — GPU性能预测(训练+推理,未见GPU上<10%误差)2407.13853ASPLOS 2025ML驱动建模NeuSight GPU 性能预测 技术分析
3Pollux — Goodput优化集群调度 (CMU, OSDI 2021)2008.12260OSDI 2021调度+建模Pollux 技术分析
4Gavel — 异构加速器感知调度 (Stanford/MS, OSDI 2020)2008.09213OSDI 2020调度+建模Gavel 技术分析
5Chakra — 标准化Execution Trace + 模拟 (Meta/GT)2305.14516HotOS 2023Trace仿真Chakra 技术分析
6ATLAHS — AI/HPC/存储网络仿真工具链 (ETH)2505.08936arXiv 2025网络仿真ATLAHS 技术分析
7Themis — 带宽感知Collective调度 (GT/Intel/Meta, ISCA 2022)2110.04478ISCA 2022通信建模Themis 技术分析
8瞬时云建模 — 临时GPU服务器分布式训练模型 (WPI)2004.03072ICAC 2020解析+经验瞬时云训练建模 技术分析

📖 综述笔记:训练系统性能建模仿真综述 — 9篇论文横评:解析建模 / Trace仿真 / 调度感知建模三大路线


🟪 三、芯片性能建模与仿真 → 芯片建模/

涵盖:CPU 全系统、GPU/GPGPU、NPU 加速器、内存/DRAM、功耗、ML 驱动建模

全景综述

CPU 全系统仿真

#工具发表特点分析笔记
1gem5ISCA 2011最广泛开源全系统仿真器,多ISAgem5 技术分析
2Roofline ModelCACM 2009经典计算/内存瓶颈可视化Roofline Model 技术分析

GPU/GPGPU 仿真

#工具发表特点分析笔记
3GPGPU-SimMICRO 2009GPU 周期精确仿真奠基GPGPU-Sim 技术分析
4Accel-SimMICRO 2020功能-时序解耦,<10% 误差Accel-Sim 技术分析

DNN/NPU 加速器仿真

#工具发表特点分析笔记
5SCALE-SimISPASS 2020脉动阵列周期精确仿真SCALE-Sim 技术分析
6MAESTROHPCA 2018数据流重用距离理论MAESTRO 技术分析

内存/功耗建模

#工具发表特点分析笔记
7Ramulator 2.0CAL 2023模块化 DRAM 仿真Ramulator 2.0 技术分析
8McPATMICRO 2008CPU 全芯片功耗+面积McPAT 技术分析

ML 驱动性能建模

#工具发表特点分析笔记
9IthemalMICRO 2018RNN 指令吞吐预测,<10% 误差Ithemal 技术分析

云原生工作负载分析

#论文发表特点分析笔记
10ByteDance Cloud-Native LLM Inference — 豆包生产负载多维度刻画 + XPU-Perf 三级评估框架HPCA 2026真实云场景,4加速器对比,未来 AI 加速器优化方向ByteDance Cloud-Native LLM Inference 深度分析

其他重要工具(待分析)

工具发表特点
SimpleScalarDAC 1996最早的 superscalar 仿真器
SniperJILP 2011Interval simulation,10× 快于 gem5
ZSIMISCA 2017快速 GPU 仿真,10× 快于 GPGPU-Sim
Multi2SimISPASS 2012CPU+GPU 异构全系统
DRAMsim3HPCA 2020DDR4/HBM2e 周期精确
CACTI1996-2016缓存/内存访问时间模型
DSENTDATE 2012片上网 (NoC) 功耗+面积
SimPointMICRO 2002仿真加速,代表性片段
TimelooparXiv 2019DNN 映射搜索 (与 MAESTRO 互补)
EyerissJSSC 2017能效优先 DNN 加速器
PlatypusASPLOS 2019贝叶斯加速器设计空间探索

🟨 四、推荐系统性能建模 → 推荐系统/

涵盖:DLRM 架构、训练性能模型、推理加速、训练框架

全景综述

#论文arXiv类型核心贡献分析笔记
1DLRM — 深度学习推荐模型标准 (Meta)1906.00091架构稀疏/密集/交互三模块定义DLRM 技术分析
2DLRM 性能模型 — GPU 训练解析模型2201.07821性能建模首个 DLRM 训练性能模型DLRM 训练性能模型分析
3MicroRec — RecSys 推理加速 (ETH)2010.05894推理加速HW+数据结构联合优化,2-5×MicroRec 分析
4Merlin HugeCTR — GPU 加速框架 (NVIDIA)2210.08803训练框架GPU Embedding 分片训练Merlin HugeCTR 分析

🟫 五、缓存系统性能建模与仿真 → 缓存系统/

涵盖:KV Cache、TB 级 Embedding Table、多模态 MM Cache 的性能建模

全景洞察

关键工具

#论文/工具类型核心贡献分析笔记
1Tair KVCache HiSim — 阿里云 KVCache 管理系统推理仿真KV Cache 管理 + Optimizer (逐出策略仿真) + HiSim (推理仿真实测<5%误差)Tair KVCache & HiSim 分析
2KV Cache 策略仿真 (Optimizer) — 阿里云缓存行为仿真Trace 回放模拟 LRU/RandomLRU/LeafAwareLRU/TTL 逐出策略(见上方 Tair 笔记)

🔗 六、跨域关联

三层次仿真互补链

gem5 / GPGPU-Sim      MAESTRO / SCALE-Sim      GenZ / Vidur / LLMServingSim
    │                        │                           │
    ▼                        ▼                           ▼
 微架构设计              DNN加速器架构                LLM推理/训练系统
 (Pipeline, Cache)      (Systolic, Dataflow)         (调度, 并行策略)
    │                        │                           │
    └────────────────────────┴───────────────────────────┘
                            │
                            ▼
                   完整设计验证链:
                   Roofline + McPAT + Ramulator + ...

交叉引用


最后更新:2026-05-28 | 共计 59 篇分析笔记 + 5 篇综述 = 64 篇文件