LLM 推理系统深度技术综述:仿真、建模与架构设计

涵盖 11 篇论文 | 时间跨度:2023.11 – 2026.03

一、领域全景图

LLM 推理系统研究的四象限分类:

  • 仿真模拟(Simulation):Vidur, LLMServingSim 1.0/2.0, Frontier, APEX
  • 在线仿真(Online Emulation):LLM-Emu
  • 解析建模(Analytical): GenZ
  • 系统设计与优化:Splitwise, Mooncake, Sarathi-Serve, Debunk CUDA Myth

二、工具深度分析

仿真/模拟工具

工具方法精度亮点
Vidur (2405.05465)算子级 profiling 仿真<9%⭐597 Stars,微软出品,引用最高
LLMServingSim 1.0 (2408.05499)HW/SW 协同,迭代级重用14.7%KAIST,可插拔 Roofline 模型
LLMServingSim 2.0 (2602.23036)Profile+运行时0.95%最高精度,支持 PD 分离
Frontier (2508.03148)精细化算子仿真TBD港中文/华为,支持 MoE
APEX (2411.17651)动态感知并行策略搜索TBDStanford/UC Merced

在线仿真(已分析)

  • LLM-Emu (2605.00616) — Profile-driven,运行真实 vLLM,<5% 误差

解析建模(已分析)

  • GenZ (2406.01698) — Roofline 解析式,5.82% 误差,唯一支持 MoE+Mamba

系统设计

论文核心贡献影响力
Splitwise (2311.18677)Prefill/Decode 相分离奠基极高
Mooncake (2407.00079)KV-centric 分离架构⭐5285 Stars,FAST 2025 Best Paper
Sarathi-Serve (2403.02310)Chunked-prefill 调度⭐496 Stars,微軟
Debunk CUDA (2501.00210)Gaudi vs A100 系统评估ISCA-52 2025

三、横向对比

精度排名

  1. LLMServingSim 2.0 — 0.95%
  2. LLM-Emu — <5%
  3. GenZ — 5.82%
  4. Vidur — <9%
  5. LLMServingSim 1.0 — 14.7%

架构支持对比

  • MoE 支持:仅 GenZ + LLMServingSim 2.0 + Mooncake + Frontier
  • Mamba 支持:仅 GenZ
  • Speculative Decoding:仅 GenZ
  • EP(Expert Parallelism):仅 GenZ + LLMServingSim 2.0 + Mooncake

建模方法谱系

  • 解析式:GenZ (快速、可解释、适合 DSE)
  • 仿真:Vidur, LLMServingSim, Frontier, APEX (精度-速度折中)
  • Profile-driven:LLM-Emu (高保真、依赖采集数据)
  • 实验/部署:Splitwise, Mooncake, Sarathi-Serve (真实系统验证)

四、关键洞察与趋势

趋势 1:仿真→真实系统运行的演进

从纯仿真 (Vidur/LLMServingSim) 到 “真实代码 + 定点替换” (LLM-Emu)

趋势 2:分离式推理 (Disaggregation)

Splitwise (2023) → Mooncake (2024) → Arrow, KVDirect 集群成主流范式

趋势 3:Profile-driven vs Analytical 融合

GenZ(解析式)和 LLM-Emu(Profile-driven)互补而非替代

趋势 4:行业影响力

Mooncake 已部署于字节跳动豆包,Vidur 被多个团队采用,LLMServingSim 2.0 达 0.95% 误差

五、推荐工具链

用户角色推荐组合
架构师GenZ (快速 DSE) → LLMServingSim 2.0 (高精度验证)
系统工程师Vidur (配置搜索) → APEX (并行优化) → Mooncake (部署参考)
AI 工程师GenZ (模型-硬件匹配) → LLM-Emu (无 GPU SLO 验证)
学术研究者GenZ + LLMServingSim + LLM-Emu + Vidur (方法对比基线)

论文速查表

#论文arXiv年份类型精度GitHub
1GenZ2406.016982024.06解析建模5.82%⭐112
2LLM-Emu2605.006162026.05在线仿真<5%
3Vidur2405.054652024.05仿真<9%⭐597
4LLMServingSim 1.02408.054992024.08HW/SW协同14.7%-
5LLMServingSim 2.02602.230362026.02HW/SW协同0.95%-
6Frontier2508.031482025.08仿真TBD-
7APEX2411.176512024.11策略搜索TBD-
8Splitwise2311.186772023.11系统设计N/A-
9Mooncake2407.000792024.06系统设计N/A⭐5285
10Sarathi-Serve2403.023102024.03系统设计N/A⭐496
11Debunk CUDA2501.002102024.12硬件评估N/A-

相关笔记