芯片性能建模与仿真深度技术综述：Arch/CPU/NPU/GPU/TPU

涵盖 ~35 项工作 | 时间跨度：1996 – 2026

一、领域全景图

芯片性能建模与仿真按方法层级分类：

┌─────────────────────────────────────────────────────┐
│               精度 ↑ 速度 ↓                          │
│                                                      │
│  RTL/Circuit-Level    │  Verilog/VHDL, SPICE …      │
│  ──────────────────   │  (不在本综述范围)            │
│                                                      │
│  Cycle-Accurate       │  gem5, GPGPU-Sim, ZSIM      │
│  Simulators           │  Accel-Sim, DRAMsim …        │
│                                                      │
│  Trace-Driven         │  SCALE-Sim, CACTI …          │
│  Simulators           │                              │
│                                                      │
│  Analytical Models    │  Roofline, MAESTRO,          │
│   (Roofline-based)    │  Timeloop, McPAT …           │
│                                                      │
│  ML-Based Models      │  Ithemal, PerfPred, …        │
│  (Machine Learning)   │                              │
│                                                      │
│  Statistical/Interval │  SimPoint, Interval          │
│  Models               │  Simulation …                │
└─────────────────────────────────────────────────────┘
               精度 ↓ 速度 ↑

按目标芯片分类

类型	仿真工具	建模层次
CPU (通用处理器)	gem5, SimpleScalar, Sniper, MARSSx86	周期精确、指令级
GPU/GPGPU (图形/通用GPU)	GPGPU-Sim, Accel-Sim, ZSIM, Multi2Sim	周期精确、线程级
NPU/DNN Accelerator	SCALE-Sim, MAESTRO, Timeloop, Eyeriss	脉动阵列、数据流
TPU/Tensor Processor	SCALE-Sim TPU, PLATYPUS	脉动阵列扩展
Memory/DRAM	Ramulator, DRAMsim, CACTI	周期精确
Power/Energy	McPAT, DSENT, Aladdin	分析建模
Heterogeneous	Multi2Sim, ASTRA-sim, SST	全系统

二、各方向深度分析

2.1 CPU 全系统仿真器

核心思路：周期精确（Cycle-Accurate）或功能级模拟，支持完整操作系统启动。

工具	发表地	时间	核心特点	建模精度
SimpleScalar	DAC 1996	1996	最早的广泛采用 superscalar 仿真器，5-stage pipeline, OOO	周期精确
gem5	ISCA 2011	2011	当前最广泛使用的开源全系统仿真器，ARM/x86/RISC-V	周期精确 (~10-20% 误差)
gem5-NVMain	ISPASS 2013	2013	gem5 + 详细内存子系统	周期精确
Sniper	JILP 2011	2011	Interval simulation，比 gem5 快 10×，精度接近	区间仿真 (~15%)
MARSSx86	2011	Inte 全系统	x86-64 全系统，兼容 QEMU 功能级 + PTLsim 时序	周期 + 功能混合
SST (Structural Simulation Toolkit)	PDPTA 2010	2010	Sandia 国家实验室，组件化全系统架构	可配置精度

gem5 详细介绍

支持 ARM / x86 / RISC-V / MIPS / SPARC / ALPHA
Ruby (内存子系统) + O3 (out-of-order) CPU 模型
2021 年发布 gem5-20/21，引入标准库 (stdlib) 简化配置
2024 年最新增强：GPU 仿真 (VEGA), RISC-V Vector Extension
局限：仿真速度约 ~1-2 MIPS（每秒百万指令），50-100× 慢于 native 执行
全局影响：学术引用 10000+，几乎所有计算机体系结构研究都使用

2.2 GPU/GPGPU 仿真器

工具	发表地	时间	核心特点
GPGPU-Sim	MICRO 2009	2009	最早的 GPGPU 周期精确仿真器，支持 Fermi/Kepler/Turing
GPU-Sim (GT)	HPCA 2007	2007	通用 GPU 仿真器（Timothy G. Rogers 系列）
Accel-Sim	MICRO 2020	2020	GPGPU-Sim 的继任者，功能+时序分离，精度 ~10%
ZSIM	ISCA 2017	2017	快速 GPU 仿真，interval + trace hybrid，比 GPGPU-Sim 快 ~10×
Multi2Sim	ISPASS 2012	2012	CPU + GPU 异构全系统仿真（x86 + Southern Islands）

GPGPU-Sim 详细介绍

架构支持：Fermi (CC 2.0) → 到 Turing (CC 8.6) / RDNA
核心组件：Shader Core、Memory Partition、Interconnection Network
建模精度：13-28% 平均误差（取决于 benchmark 和应用类型）
速度：~10-50 KIPS（每秒千指令），比真实 GPU 慢 500-1000×
2019 年发布 4.0 版，支持 PTX + SASS (native ISA) 双模式

Accel-Sim 新型架构

功能模型（Functional Model）与时序模型（Timing Model）分离
使用真实 NVIDIA 驱动（通过 RAPIDS/cuda-memcheck）采集执行 trace
无向量的跟踪驱动仿真，消除 GPGPU-Sim 中功能-时序耦合瓶颈
比 GPGPU-Sim 快 2-4×，精度误差 <10%

2.3 DNN/NPU 加速器仿真器

工具	发表地	时间	核心特点	建模层次
SCALE-Sim	ISPASS 2020	2019	脉动阵列（Systolic Array）周期精确仿真	循环级，脉动
SCALE-Sim v3	arXiv 2026	2026	扩展到 TPU，端到端系统分析	循环级 + 内存
MAESTRO	HPCA 2018	2018	数据流建模，重用距离分析	数据流 (data-centric)
Timeloop	arXiv 2019	2019	DNN 加速器映射搜索（与 MAESTRO 互补）	空间架构
Eyeriss	JSSC 2017	2017	能效优先的 DNN 加速架构+建模	Row-stationary 数据流
Aladdin	MICRO 2015	2015	Pre-RTL 加速器仿真（从 C 代码自动生成）	Cycle-level
DNNSim	2018	2018	DNN 架构设计与统一仿真平台	架构级

SCALE-Sim 详细介绍

SCALE-Sim (1811.02883): 首个开源的脉动阵列（Systolic Array）周期精确仿真器
- 建模：MAC 阵列、全局缓冲区、DMA 传输
- 支持：各种数据流（Weight Stationary, Output Stationary, Input Stationary）
- 精度：与 Google TPUv1 真实运行数据对比，平均误差 <15%
- 速度：仿真速率 ~500-1000 cycles/sec
SCALE-Sim v2: 引入异构脉动阵列（Heterogeneous systolic arrays）+ DRAM 建模
SCALE-Sim v3/TPU (2603.22535): 扩展到 TPU 架构，端到端系统延迟建模

MAESTRO 详细介绍

1805.02566, HPCA 2018/Emerald 2018
核心贡献：数据流建模的**数据重用距离（Reuse Distance）**理论
输入：DNN 网络拓扑 + 映射 + 硬件参数 → 性能+能耗估算
关键指标：计算吞吐、数据搬运距离、能耗
与 Timeloop 互补：MAESTRO 做数据流分析，Timeloop 做映射搜索

2.4 DRAM/内存子系统仿真

工具	发表地	时间	核心特点
DRAMsim	MEMSYS 2011	2011	DDRx/LPDDRx/HBM 的周期精确 DRAM 仿真
DRAMsim3	HPCA 2020	2020	DDR4/HBM2e 支持，周期精确，~400kHz 仿真速率
Ramulator 2.0	CAL 2023	2023	模块化 DRAM 仿真，可扩展至新型存储技术
CACTI	1996-2016	1996	HP Labs 缓存/内存访问时间+功耗分析模型

Ramulator 2.0 介绍

2308.11030, IEEE CAL 2023
完全模块化设计：协议层、控制器层、设备层分离
支持 DDR4/DDR5/HBM2e/HBM3/LPDDR5/GDDR6
仿真速率 ~500 kHz（比 DRAMsim3 快 2-3×）
易扩展新型存储（PIM/OpenCAPI/CXL 内存）

2.5 分析/统计建模

工具	发表地	时间	核心特点
Roofline Model	CACM 2009	2009	计算机/内存/通信三元瓶颈可视化
McPAT	MICRO 2008	2008	CPU 功耗建模框架（7nm-32nm CMOS）
DSENT	DATE 2012	2012	片上网（NoC）功耗+面积模型
SimPoint	MICRO 2002	2002	仿真加速，选取代表性代码片段
Interval Simulation	MICRO 2010	2010	OOO 处理器快速建模

Roofline Model

经典模型：Attainable Performance = min(Peak FLOPs, BW × Operational Intensity)
广泛应用于 CPU/GPU/TPU 的瓶颈分析
后续扩展：Cache-aware Roofline, Communication-avoiding Roofline, FP8-optimized Roofline

McPAT

MICRO 2008, HP Labs / UCSB
输入：处理器配置 + 活动因子 → 输出：动态/漏/短路功耗
覆盖：CPU core, cache, NoC, memory controller
验证：与 Intel 45nm 实测芯片对比，误差 <25%
局限：至今未更新至 FinFET 7nm/5nm，漏电建模在高工艺下不准确

2.6 ML 驱动的性能建模

工具	发表地	时间	核心特点
Ithemal	MICRO 2018	2018	神经网络预测 x86 指令级吞吐，误差 <10%
LiteSim	HPCA 2023	2023	ML 代理加速 CPU 仿真，比 gem5 快 100×
Platypus	ASPLOS 2019	2019	贝叶斯优化加速器设计空间探索
DeepStart	MICRO 2020	2020	ML 初始点加速仿真搜索

Ithemal

MICRO 2018, MIT
输入：x86 指令序列 → 输出：预测吞吐量（每周期指令数 IPC）
方法：层次化 LSTM 编码指令序列 + MLP 回归
训练数据：通过 Intel IACA 标注 100,000+ 基本块
精度：平均 <10% 错误率，优于传统静态分析模型

三、横向对比

精度 vs 速度全景

类型	工具	相对速度	精度误差	适用规模
CPU 全系统	gem5	1-5 MIPS	~15%	千核以下
CPU 区间	Sniper	10-50 MIPS	~20%	万核以下
GPU 周期	GPGPU-Sim	10-50 KIPS	~20%	单芯片
GPU 快速	ZSIM	200-500 KIPS	~25%	单芯片
GPU 功能-时序	Accel-Sim	30-80 KIPS	~10%	单芯片
NPU 脉动	SCALE-Sim	~10^5 cycles/s	~15%	配置级
NPU 数据流	MAESTRO	秒级	~10%	配置级
ML 预测	Ithemal	毫秒级	~10%	基本块级
解析	Roofline	微秒级	~30%	芯片级

开源生态

工具	代码	Stars（估计）	活跃度
gem5	https://gem5.googlesource.com	标准仓库	✅ 活跃 ~100+ committer
GPGPU-Sim	https://github.com/gpgpu-sim/gpgpu-sim	~700	⚠️ 维护模式
Accel-Sim	https://github.com/accel-sim/accel-sim-framework	~400	✅ 活跃
SCALE-Sim	https://github.com/ARM-software/SCALE-Sim	~200	✅ 活跃
MAESTRO	https://github.com/maestro-project/maestro	~100	⚠️
Ramulator 2.0	https://github.com/CMU-SAFARI/ramulator2	~400	✅ 活跃
DRAMsim3	https://github.com/umd-memsys/DRAMsim3	~600	⚠️
McPAT	https://github.com/hpescat/HP_Research_ESCAT_McPAT	~300	❌ 已归档

四、关键洞察与趋势

趋势 1：功能-时序解耦（Function-Timing Decoupling）

从 GPGPU-Sim（功能+时序耦合）到 Accel-Sim（分离）和 ZSIM（interval+trace），解耦成为主流趋势，使仿真框架更易维护、扩展。

趋势 2：ML 加速仿真

Ithemal / LiteSim / Platypus 代表三个方向：ML 替代微架构模型、ML 代理加速仿真、贝叶斯搜索设计空间。ML 正在渗透仿真流程的每一层。

趋势 3：从单芯片到全系统

简单 CPU/NPU 仿真 → CPU-GPU 异构 (Multi2Sim) → DNN+系统推理 (SCALE-Sim v3) → 数据中心规模 (ASTRA-sim)

趋势 4：LLM 刺激 NPU 仿真复兴

GenZ / MAESTRO / Timeloop / SCALE-Sim 因为 LLM 训练/推理需求而重获关注。MAESTRO+Timeloop 联合用于 DNN 映射搜索成为标准流程。

趋势 5：开源闭源的博弈

学术界以 gem5/GPGPU-Sim 等开源工具为骨干，但工业界（NVIDIA、Intel、AMD）的内部性能模型精度更高但闭源。Accel-Sim 通过复用 NVIDIA 驱动部分缩小了差距。

五、分类速查表

5.1 CPU 全系统仿真

#	工具	发表/时间	类型	精度	特点
1	SimpleScalar	DAC 1996	CPU	Cycle-accurate	最早广泛采用的 superscalar 模拟器
2	gem5	ISCA 2011	CPU	~15%	最广泛的开源全系统模拟器
3	Sniper	JILP 2011	CPU	~20%	Interval simulation，~10× 快于 gem5
4	MARSSx86	2011	CPU	Cycle-level	x86-64 全系统，QEMU+PTLsim
5	SST	PDPTA 2010	CPU+DSA	可配置	组件化，Sandia 国家实验室

5.2 GPU/GPGPU 仿真

#	工具	发表/时间	类型	精度
6	GPGPU-Sim	MICRO 2009	GPU	~20%
7	Accel-Sim	MICRO 2020	GPU	~10%
8	ZSIM	ISCA 2017	GPU	~25%
9	Multi2Sim	ISPASS 2012	CPU+GPU	~20%

5.3 DNN/NPU 加速器

#	工具	发表/时间	类型	精度
10	SCALE-Sim	ISPASS 2020	Systolic Array	~15%
11	SCALE-Sim v3	arXiv 2026	TPU	N/A
12	MAESTRO	HPCA 2018	Dataflow	~10%
13	Timeloop	arXiv 2019	Mapping Search	~15%
14	Eyeriss	JSSC 2017	Energy+Perf	~10%
15	Aladdin	MICRO 2015	Pre-RTL	~15%

5.4 内存/功耗

#	工具	发表/时间	类型	精度
16	DRAMsim	MEMSYS 2011	DRAM	Cycle-accurate
17	DRAMsim3	HPCA 2020	DRAM	Cycle-accurate
18	Ramulator 2.0	CAL 2023	DRAM	Cycle-accurate
19	CACTI	1996-2016	Cache/Mem	~15%
20	McPAT	MICRO 2008	Power	~25%
21	DSENT	DATE 2012	NoC	~15%

5.5 分析/ML 模型

#	工具	发表/时间	类型	速度
22	Roofline Model	CACM 2009	Analytical	微秒级
23	SimPoint	MICRO 2002	Sampling	加速 1000×
24	Interval Simulation	MICRO 2010	Statistical	加速 10×
25	Ithemal	MICRO 2018	ML-based	毫秒级
26	LiteSim	HPCA 2023	ML proxy	加速 100×
27	Platypus	ASPLOS 2019	Bayesian	N/A

六、推荐工具链

用户角色	推荐组合
CPU 架构师	gem5 (细粒度) → Sniper (中等规模) → SimPoint+Roofline (初筛)
GPU 架构师	Accel-Sim (高保真) → ZSIM (快速探索) → Roofline (瓶颈分析)
NPU 设计者	MAESTRO+Timeloop (数据流+映射) → SCALE-Sim (周期确认) → McPAT (功耗)
内存系统研究者	Ramulator 2.0 (模块化) → DRAMsim3 (完整)
体系结构研究者	gem5 + Accel-Sim + SCALE-Sim 全栈组合

七、与 LLM 推理/训练系统仿真的联系

维度	CPU/GPU 传统仿真	NPU 仿真	LLM 推理系统仿真（前综述）
粒度	周期级/指令级	循环级	KV Cache / 算子级
典型工具	gem5, GPGPU-Sim	SCALE-Sim, Timeloop	GenZ, Vidur, LLMServingSim
速度	极慢（1-50 KIPS）	中等	快（30ms - 分钟级）
适用	微架构设计	加速器设计	系统级调度、配置优化
互补关系	微架构验证的黄金标准	加速器映射优化	系统级快照决策

核心洞察：三层次仿真共同构成芯片→系统的完整设计验证链：

gem5 / GPGPU-Sim → 微架构设计决策（Pipeline, Cache, Interconnect）
MAESTRO / SCALE-Sim → DNN 加速器架构设计（Systolic Array, Dataflow）
GenZ / Vidur → LLM 推理系统部署决策（并行策略, 批处理, 调度）

Pastens

探索

芯片性能建模与仿真深度综述