📚 论文分析目录索引

共计 49 篇论文/工具分析 | 按领域分五大子目录

Knowledge/论文分析/
├── 📚 论文分析目录索引.md          ← 本文件
├── 推理系统/                      ← LLM 推理系统（12 篇）
├── 训练系统/                      ← LLM 训练系统（21 篇）
├── 芯片建模/                      ← 芯片性能建模（11 篇）
├── 推荐系统/                      ← 推荐系统性能建模（5 篇）
└── 缓存系统/                      ← 缓存性能建模与仿真（2 篇）

🟦 一、LLM 推理系统 → 推理系统/

涵盖：仿真模拟、在线仿真、解析建模、系统设计与优化

全景综述

LLM推理系统深度综述 — 11 篇论文的横向对比、精度排名、工具链推荐

仿真/模拟工具

#	论文	arXiv	精度	分析笔记
1	Vidur — 微软大规模推理仿真框架	2405.05465	<9%	Vidur 深度技术分析
2	LLMServingSim 1.0 — KAIST HW/SW协同仿真	2408.05499	14.7%	LLMServingSim 1.0 技术分析
3	LLMServingSim 2.0 — 超高精度统一仿真	2602.23036	0.95%	LLMServingSim 2.0 技术分析
4	Frontier — 港中文/StepFun 精细化算子仿真	2508.03148	TBD	Frontier 技术分析
5	APEX — Stanford 动态感知并行策略搜索	2411.17651	TBD	APEX 技术分析

在线仿真

#	论文	arXiv	精度	分析笔记
6	LLM-Emu — Profile-driven 在线仿真，运行真实 vLLM	2605.00616	<5%	LLM-Emu 技术分析

解析建模

#	论文	arXiv	精度	分析笔记
7	GenZ — Roofline 解析式建模，唯一支持 MoE+Mamba	2406.01698	5.82%	GenZ 深度技术分析

系统设计与部署

#	论文	arXiv	亮点	分析笔记
8	Splitwise — Prefill/Decode 相分离奠基作	2311.18677	PD 分离鼻祖	Splitwise 技术分析
9	Mooncake — KV-centric 分离架构	2407.00079	⭐5285, FAST Best Paper	Mooncake 技术分析
10	Sarathi-Serve — Chunked-prefill 调度	2403.02310	⭐496, 微软	Sarathi-Serve 技术分析
11	Debunk CUDA Myth — Gaudi vs A100 公平对比	2501.00210	ISCA-52 2025	Debunk CUDA Myth 技术分析

🏆 精度排名：LLMServingSim 2.0 (0.95%) → LLM-Emu (<5%) → GenZ (5.82%) → Vidur (<9%) → LLMServingSim 1.0 (14.7%)

🟩 二、LLM 训练系统 → 训练系统/

涵盖：并行框架、内存优化、流水线并行、长序列训练、MoE 训练、通信优化、微调优化、性能建模仿真

全景综述

LLM训练系统深度综述 — 20 篇论文的训练系统全景图、五维并行谱系、训练 vs 推理对比

并行策略框架

#	论文	arXiv	类型	分析笔记
1	Megatron-LM — 1D-TP + PP + DP 混合并行	2104.04473	⭐9.6K, NVIDIA	Megatron-LM 技术分析
2	Alpa — 自动并行编译器 (OSDI 2022)	2201.12023	⭐2.9K, Berkeley	Alpa 技术分析
3	FlexFlow — SOAP 并行搜索空间	1807.05358	Stanford/Berkeley	FlexFlow 技术分析

内存优化 (ZeRO 系列)

#	论文	arXiv	类型	分析笔记
4	ZeRO — 三阶段分片，万亿参数训练	1910.02054	⭐37K, 微软	ZeRO 技术分析
5	ZeRO-Offload — CPU 卸载优化器+梯度	2101.06840	单GPU 100B	ZeRO-Offload 技术分析
6	ZeRO-Infinity — NVMe 三级存储卸载	2104.07857	200T参数	ZeRO-Infinity 技术分析
7	ZeRO++ — 量化通信优化	2306.10209	1.5×加速	ZeRO++ 技术分析
8	FSDP — PyTorch 原生 ZeRO-3	2304.11277	Meta, 内置 PyTorch	FSDP 技术分析

流水线并行

#	论文	arXiv	核心创新	分析笔记
9	GPipe — 同步流水线并行 (NeurIPS 2019)	1811.06965	微批+梯度累积	GPipe 技术分析
10	PipeDream — 异步 1F1B 调度 (SOSP 2019)	1806.03377	Weight Stashing	PipeDream 技术分析
11	TeraPipe — Token 级流水线并行	2102.07988	近零气泡	TeraPipe 技术分析

长序列训练

#	论文	arXiv	核心创新	分析笔记
12	Sequence Parallelism — 序列维度切分	2105.13120	ColossalAI	Sequence Parallelism 技术分析
13	DeepSpeed Ulysses — All-to-All 序列通信	2309.14509	微软，百万序列	DeepSpeed Ulysses 技术分析
14	Ring Attention — 环形 KV block 通信	2310.01889	Berkeley，近无限上下文	Ring Attention 技术分析

MoE 训练系统

#	论文	arXiv	核心创新	分析笔记
15	Tutel — 动态自适应 MoE 框架	2206.03382	微软/Berkeley	Tutel 技术分析
16	MiCS — 公有云上近线性 MoE 缩放	2205.00119	AWS	MiCS 技术分析

通信优化

#	论文	arXiv	核心创新	分析笔记
17	TACCL — 通信草图合成 (OSDI 2022)	2111.04867	优于 NCCL 2-5×	TACCL 技术分析

微调/训练内存优化

#	论文	arXiv	核心创新	分析笔记
18	LOMO — 融合梯度计算，全参微调省 10.8×	2306.09782	⭐6K	LOMO 技术分析
19	GaLore — 梯度低秩投影，降 65% 内存	2403.03507	Caltech/Meta	GaLore 技术分析

性能建模仿真（NEW）

#	论文	arXiv	发表	类型	分析笔记
1	Universal Perf Model — 多GPU训练通用性能模型 (Meta/AMD/NVIDIA)	2404.12674	arXiv 2024	解析建模	Universal Performance Model 技术分析
2	NeuSight — GPU性能预测（训练+推理，未见GPU上<10%误差）	2407.13853	ASPLOS 2025	ML驱动建模	NeuSight GPU 性能预测技术分析
3	Pollux — Goodput优化集群调度 (CMU, OSDI 2021)	2008.12260	OSDI 2021	调度+建模	Pollux 技术分析
4	Gavel — 异构加速器感知调度 (Stanford/MS, OSDI 2020)	2008.09213	OSDI 2020	调度+建模	Gavel 技术分析
5	Chakra — 标准化Execution Trace + 模拟 (Meta/GT)	2305.14516	HotOS 2023	Trace仿真	Chakra 技术分析
6	ATLAHS — AI/HPC/存储网络仿真工具链 (ETH)	2505.08936	arXiv 2025	网络仿真	ATLAHS 技术分析
7	Themis — 带宽感知Collective调度 (GT/Intel/Meta, ISCA 2022)	2110.04478	ISCA 2022	通信建模	Themis 技术分析
8	瞬时云建模 — 临时GPU服务器分布式训练模型 (WPI)	2004.03072	ICAC 2020	解析+经验	瞬时云训练建模技术分析
9	vTrain — KAIST/Samsung LLM训练仿真框架	2312.12391	arXiv 2023	Profiling仿真	vTrain 训练仿真框架深度技术分析

| 综述篇幅 | 更新统计 |

🟪 三、芯片性能建模与仿真 → 芯片建模/

涵盖：CPU 全系统、GPU/GPGPU、NPU 加速器、内存/DRAM、功耗、ML 驱动建模

全景综述

芯片性能建模与仿真深度综述 — 约 35 项工作的芯片建模全景、精度-速度横评、三层次互补链

CPU 全系统仿真

#	工具	发表	特点	分析笔记
1	gem5	ISCA 2011	最广泛开源全系统仿真器，多ISA	gem5 技术分析
2	Roofline Model	CACM 2009	经典计算/内存瓶颈可视化	Roofline Model 技术分析

GPU/GPGPU 仿真

#	工具	发表	特点	分析笔记
3	GPGPU-Sim	MICRO 2009	GPU 周期精确仿真奠基	GPGPU-Sim 技术分析
4	Accel-Sim	MICRO 2020	功能-时序解耦，<10% 误差	Accel-Sim 技术分析

DNN/NPU 加速器仿真

#	工具	发表	特点	分析笔记
5	SCALE-Sim	ISPASS 2020	脉动阵列周期精确仿真	SCALE-Sim 技术分析
6	MAESTRO	HPCA 2018	数据流重用距离理论	MAESTRO 技术分析

内存/功耗建模

#	工具	发表	特点	分析笔记
7	Ramulator 2.0	CAL 2023	模块化 DRAM 仿真	Ramulator 2.0 技术分析
8	McPAT	MICRO 2008	CPU 全芯片功耗+面积	McPAT 技术分析

ML 驱动性能建模

#	工具	发表	特点	分析笔记
9	Ithemal	MICRO 2018	RNN 指令吞吐预测，<10% 误差	Ithemal 技术分析

云原生工作负载分析

#	论文	发表	特点	分析笔记
10	ByteDance Cloud-Native LLM Inference — 豆包生产负载多维度刻画 + XPU-Perf 三级评估框架	HPCA 2026	真实云场景，4加速器对比，未来 AI 加速器优化方向	ByteDance Cloud-Native LLM Inference 深度分析

其他重要工具（待分析）

工具	发表	特点
SimpleScalar	DAC 1996	最早的 superscalar 仿真器
Sniper	JILP 2011	Interval simulation，10× 快于 gem5
ZSIM	ISCA 2017	快速 GPU 仿真，10× 快于 GPGPU-Sim
Multi2Sim	ISPASS 2012	CPU+GPU 异构全系统
DRAMsim3	HPCA 2020	DDR4/HBM2e 周期精确
CACTI	1996-2016	缓存/内存访问时间模型
DSENT	DATE 2012	片上网 (NoC) 功耗+面积
SimPoint	MICRO 2002	仿真加速，代表性片段
Timeloop	arXiv 2019	DNN 映射搜索 (与 MAESTRO 互补)
Eyeriss	JSSC 2017	能效优先 DNN 加速器
Platypus	ASPLOS 2019	贝叶斯加速器设计空间探索

🟨 四、推荐系统性能建模 → 推荐系统/

涵盖：DLRM 架构、训练性能模型、推理加速、训练框架

全景综述

推荐系统性能建模综述 — 7 篇推荐系统性能研究的分类与对比，与 LLM 推理的对比

#	论文	arXiv	类型	核心贡献	分析笔记
1	DLRM — 深度学习推荐模型标准 (Meta)	1906.00091	架构	稀疏/密集/交互三模块定义	DLRM 技术分析
2	DLRM 性能模型 — GPU 训练解析模型	2201.07821	性能建模	首个 DLRM 训练性能模型	DLRM 训练性能模型分析
3	MicroRec — RecSys 推理加速 (ETH)	2010.05894	推理加速	HW+数据结构联合优化，2-5×	MicroRec 分析
4	Merlin HugeCTR — GPU 加速框架 (NVIDIA)	2210.08803	训练框架	GPU Embedding 分片训练	Merlin HugeCTR 分析

🟫 五、缓存系统性能建模与仿真 → 缓存系统/

涵盖：KV Cache、TB 级 Embedding Table、多模态 MM Cache 的性能建模

全景洞察

缓存系统性能建模洞察分析 — 三大缓存领域（KV Cache / Embedding / MM Cache）的系统性对比和空白分析

关键工具

#	论文/工具	类型	核心贡献	分析笔记
1	Tair KVCache HiSim — 阿里云 KVCache 管理系统	推理仿真	KV Cache 管理 + Optimizer (逐出策略仿真) + HiSim (推理仿真实测<5%误差)	Tair KVCache & HiSim 分析
2	KV Cache 策略仿真 (Optimizer) — 阿里云	缓存行为仿真	Trace 回放模拟 LRU/RandomLRU/LeafAwareLRU/TTL 逐出策略	(见上方 Tair 笔记)

🔗 六、跨域关联

三层次仿真互补链

gem5 / GPGPU-Sim      MAESTRO / SCALE-Sim      GenZ / Vidur / LLMServingSim
    │                        │                           │
    ▼                        ▼                           ▼
 微架构设计              DNN加速器架构                LLM推理/训练系统
 (Pipeline, Cache)      (Systolic, Dataflow)         (调度, 并行策略)
    │                        │                           │
    └────────────────────────┴───────────────────────────┘
                            │
                            ▼
                   完整设计验证链:
                   Roofline + McPAT + Ramulator + ...

交叉引用

Roofline Model 技术分析与 GenZ 深度技术分析 — Roofline 的两个应用场景
SCALE-Sim 技术分析与 GenZ 深度技术分析 — 脉动阵列仿真 → LLM 推理硬件建模
Accel-Sim 技术分析与 Debunk CUDA Myth 技术分析 — GPU 性能建模的两条路线
缓存系统性能建模洞察分析 — 连接推理系统 (KV Cache) 与推荐系统 (Embedding) 的缓存性能横评

最后更新：2026-05-28 | 共计 59 篇分析笔记 + 5 篇综述 = 64 篇文件

Pastens

探索

📚 论文分析目录索引

📚 论文分析目录索引

🟦 一、LLM 推理系统 → 推理系统/

全景综述

仿真/模拟工具

在线仿真

解析建模

系统设计与部署

🟩 二、LLM 训练系统 → 训练系统/

全景综述

并行策略框架

内存优化 (ZeRO 系列)

流水线并行

长序列训练

MoE 训练系统

通信优化

微调/训练内存优化

性能建模仿真（NEW）

🟪 三、芯片性能建模与仿真 → 芯片建模/

全景综述

CPU 全系统仿真

GPU/GPGPU 仿真

DNN/NPU 加速器仿真

内存/功耗建模

ML 驱动性能建模

云原生工作负载分析

其他重要工具（待分析）

🟨 四、推荐系统性能建模 → 推荐系统/

全景综述

🟫 五、缓存系统性能建模与仿真 → 缓存系统/

全景洞察

关键工具

🔗 六、跨域关联

三层次仿真互补链

交叉引用

关系图谱

目录

反向链接