Frontier: Simulating the Next Generation of LLM Inference Systems

Frontier：模拟下一代 LLM 推理系统

一、论文概览

项目	内容
论文标题	Frontier: Simulating the Next Generation of LLM Inference Systems
作者	Yicheng Feng¹, Xin Tan¹, Kin Hang Sew¹, Yimin Jiang², Yibo Zhu², Hong Xu¹
机构	¹香港中文大学 (CUHK), ²StepFun
发表	arXiv:2508.03148, 2025年8月
页数	7页（含参考文献）
代码	计划开源（论文中承诺）
论文链接	https://arxiv.org/abs/2508.03148

核心贡献

Frontier 是首个专为下一代 LLM 推理系统设计的高保真仿真器，其核心贡献包括：

新的 stage-centric 仿真架构：彻底告别传统的 replica-centric（副本中心）抽象，提出以”阶段”（stage）为核心的原语，原生支持分布式、多阶段的工作流建模。
原生 MoE 支持：首次在 LLM 推理仿真器中完整支持 Mixture-of-Experts 模型的推理模拟，包括 Expert Parallelism (EP)、跨集群专家路由、以及数据依赖的微工作流（如 token 负载不均导致的 straggler 效应）。
全面的解耦架构支持：同时支持 Prefill/Decode (PD) 解耦和 Attention/FFN (AF) 解耦两种主流解耦范式，能模拟跨集群的生产者-消费者动态和细粒度流水线。
高精度算子级建模：针对 Attention 和 GroupedGEMM 等异构敏感算子，使用细粒度特征工程 + ML 模型（如随机森林）实现高精度运行时预测，Attention 算子 94% 以上预测误差低于 10%，GroupedGEMM 95% 以上预测误差低于 6%。
模块化、可插拔策略框架：将动态批处理、请求调度、内存管理等系统级策略作为一等公民，支持研究者灵活组合与评估不同的策略。

与现有工作的对比

特性	LLMServingSim [7]	Vidur [4]	Frontier (本文)
PD 解耦	✗	✗	✓
AF 解耦	✗	✗	✓
PP/TP（流水线/张量并行）	✓	✓	✓
DP（数据并行）	✗	✗	✓
EP（专家并行）	✗	–	✓
高级调度策略	✗	–	✓

✓ = 完全支持 | ✗ = 不支持 | – = 部分/有条件支持

二、技术方法详解

2.1 设计动机：为什么现有仿真器不够用？

现有 LLM 推理仿真器（如 Vidur [4]、LLMServingSim [7]）基于 replica-centric（副本中心） 抽象，将系统视为一组同质化、自包含的推理副本（replica），核心问题简化为在副本间做负载均衡。这种抽象在下一代推理架构下存在三个根本性缺陷：

无法表示分布式多阶段工作流：在 PD/AF 解耦和 MoE 架构中，推理不再是单个副本内的单一任务，而是跨多个专用异构集群编排的多阶段流水线。Replica-centric 抽象缺少表示跨集群路由、KV-Cache 传输、复杂同步等操作的原语。
算子级建模精度不足：
- Attention 算子：Vidur 使用单一代理长度（序列长度的平方根）简化估计，但在批次内序列长度差异大时效果差。如一个 72 请求的批次中，Vidur 对 FlashAttention 的预测误差超过 55%（0.151ms vs 0.340ms）。
- 缺少新算子的建模：GroupedGEMM（MoE 中的异构 GEMM）等关键算子完全没有被覆盖。
系统级策略抽象不足：真实引擎（如 vLLM、SGLang、TensorRT-LLM）的动态批处理、请求调度和内存管理策略影响巨大，但现有仿真器往往将其过度抽象或忽略。

这三个挑战的核心结论是：关键抽象已经从”管理一组副本”转变为”编排请求通过分布式系统的流程”。

2.2 Frontier 整体架构

Frontier 采用层次化事件驱动架构，核心设计思想是将 LLM 推理系统视为一个”系统的系统”（system-of-systems）。

GlobalController（全局控制器）
  ├── Workload Generator（负载生成器）
  ├── Performance Collector（性能收集器）
  └── 管理多个 ClusterWorker

ClusterWorker（集群工作者）
  ├── ClusterScheduler（集群调度器）
  └── 管理多个 ReplicaWorker

ReplicaWorker（副本工作者）
  ├── Model Runner（模型运行器）
  │     ├── Replica Scheduler（副本调度器）
  │     └── Batching Engine（批处理引擎）
  └── ExecutionPredictor（执行预测器）

GlobalController（全局控制器）

有状态的工作流编排器，是解耦系统的核心：

PD 解耦：管理预填充阶段的 KV-Cache 传输与解码阶段的内存信号之间的 backpressure
AF 解耦：构建事件依赖图，编排跨 Attention 集群和 FFN 集群的微批次流水线

ClusterWorker（集群工作者）

专用硬件集群的抽象，包含：

ClusterScheduler：管理本地资源，参与跨阶段协调（如 PD 中的内存可用性信号）
ReplicaWorker 池：集群内的计算实例

ReplicaWorker & ExecutionPredictor

ExecutionPredictor 是关键创新——它将一个逻辑层分解为数据依赖的微工作流事件。对于 MoE 层，它模拟门控决策生成 token-to-expert 分配图，将专家计算建模为一组异构任务，通过取最大值来原生捕获 straggler 效应。

2.3 高精度算子运行时预测

Attention 算子的挑战与方案

挑战：批次内序列长度差异大时，Vidur 的单一代理长度方法失效。实际 GPU 内核执行涉及分区和分块（tiling），输入异质性导致波前量化（wave quantization）等复杂现象。

Frontier 的方案：

使用丰富的特征集：包括序列长度的聚合统计（均值、方差等）和分布统计
训练 ML 模型（随机森林） 进行预测，更精确地捕获工作负载动态

GroupedGEMM 算子的挑战与方案

挑战：MoE 模型中不同专家收到的 token 数量不同，导致内部工作负载不均。

Frontier 的方案：

提取反映输入属性和专家负载分布的特征：token 计数、专家数量、模型维度、专家选择比、负载均衡指标等
同样使用 ML 模型进行预测

结果：Attention 算子 94% 以上预测误差 < 10%；GroupedGEMM 95% 以上预测误差 < 6%（Fig. 2）。

2.4 解耦架构工作流仿真

PD 解耦：生产者-消费者模型

核心挑战：精确模拟两个速率不匹配的子系统（预填充 vs 解码）之间的协调和 backpressure。

Frontier 的仿真流程：

预填充阶段（生产者）：GlobalController 将请求路由到预填充集群，模拟排队和执行。完成后请求状态变为 PREFILL_COMPLETE，KV-Cache 保留在预填充内存缓冲区。
解码阶段（消费者）：ClusterScheduler 持续追踪 GPU 内存利用率。当解码完成释放 KV-Cache 时，向 GlobalController 发信号。
全局协调（Backpressure）：GlobalController 维护 PREFILL_COMPLETE 请求队列，仅在收到解码阶段的内存可用信号后才发起 KV_CACHE_TRANSFER 事件。

AF 解耦：事件依赖图

核心挑战：精确捕获多阶段微批次驱动工作流的关键路径，其中微小的阶段间不平衡就可能产生显著的流水线气泡（pipeline bubbles）。

Frontier 的方案：

GlobalController 发起解码步骤后，decode-attn 阶段的 ReplicaWorker 将全局批次分为 m 个微批次
GlobalController 和 ClusterScheduler 动态构建跨 L 个模型层的所有操作的事件依赖图
事件驱动引擎在依赖满足时立即调度事件，内在模拟了计算与通信的重叠
- 例如：A_TO_F_TRANSFER(i,k) 在传输时，ATTN_COMPUTE(i+1,k) 可在空闲的 Attention GPU 上调度
一个 token 的生成时间 = 图中最后一个事件（通常是 FFN_COMPUTE）的时间戳

MoE 推理：微工作流分解

核心挑战：MoE 层的性能不是由平均行为决定，而是由 token 负载不均导致的最差 straggler 决定。

Frontier 的仿真流程：

配置虚拟模型分片以满足拓扑约束（如 attn_dp * attn_tp == moe_tp * moe_ep）
遇到 MoE 层时，ExecutionPredictor 模拟以下事件序列：
- 门控网络的 GEMM
- 调用可插拔路由模块，生成 token-to-expert 分配图
- 对每个 expert i，使用实际分配的 token 数查询 GroupedGEMM 性能模型
模拟隐式同步屏障：延迟 = max(T_expert1, T_expert2, …, T_expertN)

三、实验评估

3.1 实验设置

配置	详情
硬件	8-GPU 节点（具体 GPU 型号论文未明确说明）
软件	vLLM 0.10.1 + SharedStorageConnector KV 接口
模型	Qwen2-7B-Instruct
评估内容	算子级精度 + 端到端系统吞吐量

3.2 算子级精度

算子	Frontier 预测误差	Vidur 对比
Attention	>94% 的样本误差 < 10%	在序列长度方差大时误差 > 55%
GroupedGEMM	>95% 的样本误差 < 6%	不支持此算子

Fig. 2 的 CDF 曲线清晰展示了 Frontier 在 Attention 和 GroupedGEMM 两个算子上的显著优势。Vidur 的 Attention 模型在动态工作负载下误差分布广泛，而 Frontier 的 CDF 曲线在低误差区间迅速攀升。

3.3 端到端系统精度

PD 解耦配置（预填充:解码实例 = 1:1），预测吞吐量 vs 实测吞吐量：

批次大小	平均输入长度	平均输出长度	实测吞吐量 (tokens/s/GPU)	预测吞吐量 (tokens/s/GPU)	相对误差
4	32	1024	111.355	90.498	~18.7%
8	128	256	131.831	109.366	~17.0%
16	256	128	151.425	127.157	~16.0%
32	32	128	313.236	240.743	~23.2%

分析：预测吞吐量持续低于实测值，相对误差在 16.0%–23.2% 之间。论文认为这属于”可接受”范围，但相比 Vidur 在传统部署上的精度（通常 <10%），端到端精度仍有较大提升空间。预测系统性偏低可能反映了仿真器在某些开销上过于保守。

3.4 局限性说明（论文自述）

仅进行了初步评估（preliminary evaluation），缺乏大规模的消融研究和更多场景验证
论文明确将以下内容列为未来工作：
- 扩展核心算子的建模
- 量化仿真保真度和成本
- 通过多样化的案例研究展示 Frontier 在大规模系统设计和优化中的实用性

四、亮点与局限

🌟 亮点

架构设计的根本创新：Stage-centric 抽象是对传统 replica-centric 抽象的根本性颠覆。这一设计决策使 Frontier 能够原生支持下一代推理架构，而不是在旧架构上打补丁。
MoE 支持的完整度：从 GroupedGEMM 算子级建模到 EP（专家并行）、专家路由、straggler 模拟，Frontier 提供了 MoE 推理仿真的端到端解决方案——这是目前文献中首个完整覆盖这些能力的仿真器。
PD 和 AF 双范式覆盖：既支持目前主流讨论的 PD 解耦，也支持更前沿的 AF 解耦（如 MegaScale-Infer 和 Step-3 的方案），覆盖了行业正在探索的主要方向。
ML 驱动的算子模型：使用随机森林等 ML 模型替代传统的解析模型或单一代理方法，在不显著增加仿真开销的前提下大幅提升了 Attention 等复杂算子的预测精度。
可插拔策略框架：将系统级策略作为一等公民的设计让 Frontier 不只是一个仿真器，更是一个系统设计的实验平台。

⚠️ 局限

端到端精度有待提升：16%–23% 的端到端吞吐量误差在实际系统设计决策中可能不够可靠。对比 Vidur 在传统场景下 <10% 的误差，Frontier 的保真度还有明显差距。
评估规模有限：
- 仅测试了 8-GPU 单节点 + Qwen2-7B 模型——远未达到其声称要模拟的”大规模分布式系统”的量级
- 未展示 PD 和 AF 解耦在更大集群上的有效性
- 没有 MoE 模型的端到端实验（只测了 GroupedGEMM 算子级精度）
缺乏消融实验：没有验证各组件（如 ML 算子模型 vs 解析模型、stage-centric vs 改造的 replica-centric）的边际贡献。
未知的计算开销：使用随机森林进行运行时预测相比于解析模型会有额外开销，论文未讨论仿真器本身的运行效率和可扩展性。
对 Step-3 / MegaScale-Infer 的具体实现细节描述有限：虽然论文声称能模拟 AF 解耦，但 AF 解耦的具体 pipelining 策略（如 ping-pong 流水线如何精确建模）仅给出了高层次描述。
计划开源但尚未开源：论文承诺开源代码，但截至阅读时尚未开放。这限制了可复现性和社区的进一步验证。

五、个人评价

定位与意义

Frontier 是一篇填补明确空白的系统论文。在 LLM 推理快速从”单节点部署 dense 模型”走向”大规模分布式部署 MoE + 解耦架构”的行业趋势下，缺乏合适的仿真工具已成为阻碍系统设计和优化的关键瓶颈。Frontier 敏锐地抓住了这一点，并提出了正确的设计方向。

与 Vidur 的关系

Frontier 在精神上继承了 Vidur 的许多设计原则（事件驱动、模块化、可扩展），但做出了关键的架构突破。如果把 Vidur 比作”单机批处理系统的仿真器”，Frontier 就是在尝试做”分布式数据流系统的仿真器”。这不是迭代改进，而是架构层面的范式转换。

技术路线的判断

使用 ML 模型（随机森林）替代解析模型来做算子级预测是一个有趣的选择：

优点：精度高，特别是对 Attention 这种输入依赖性强、规律复杂的算子
风险：训练数据的覆盖范围决定了预测的外推能力——如果训练数据未覆盖某类极端负载分布，ML 模型的预测可能比解析模型更不可靠
前景：未来可以探索混合方法——解析模型做基础预测，ML 模型做残差修正

建议关注的方向

开源的时机与质量：代码开源后，社区的第一件事应该是复现论文结果并探索更大的配置空间
与现有生态的集成：Frontier 能否对接 vLLM / SGLang 的 trace 数据进行校准？能否输出可直接用于系统调优的建议？
大规模场景的保真度验证：在 32/64/128 GPU 集群上、使用 DeepSeek-V3 或类似规模的 MoE 模型进行验证，将是检验 Frontier 真正价值的关键实验

评分：⭐⭐⭐⭐（4/5）

创新性：5/5 —— Stage-centric 抽象是真正的创新
技术深度：4/5 —— 算子建模和 MoE 工作流建模有深度，但评估不够充分
实验验证：2/5 —— 评估规模太小，缺乏关键消融和大规模验证
写作质量：4/5 —— 动机清晰，方法描述有层次，图表质量高
影响力潜力：5/5 —— 填补了行业的关键空白，有可能成为新一代 LLM 推理系统的事实标准仿真平台

参考文献（本文引用）

Qwen2 Technical Report, 2024.
Nvidia Dynamo, 2025. https://github.com/ai-dynamo/dynamo
Nvidia TensorRT-LLM, 2025. https://github.com/NVIDIA/TensorRT-LLM
Agrawal et al., Vidur. MLSys 2024.
Agrawal et al., Sarathi-Serve. OSDI 2024.
Breiman, Random Forests. Machine Learning, 2001.
Cho et al., LLMServingSim. IISWC 2024.
Guo et al., DeepSeek-R1. arXiv 2025.
Kwon et al., vLLM / PagedAttention. SOSP 2023.
Li et al., Lina. USENIX ATC 2023.
Liu et al., DeepSeek-V3 Technical Report. arXiv 2024.
Mitra et al., Beyond the Buzz (Inference Disaggregation). arXiv 2025.
Singh et al., Hybrid Tensor-Expert-Data Parallelism for MoE. ICS 2023.
StepFun, Step-3. arXiv 2025.
Zheng et al., SGLang. NeurIPS 2024.
Zhong et al., DistServe. OSDI 2024.
Zhu et al., MegaScale-Infer. arXiv 2025.

Pastens

探索

Frontier 技术分析