ATLAHS: 以应用为中心的网络仿真工具链

一、论文概览

大规模超算集群和数据中心的网络性能评估高度依赖网络模拟器。现有模拟器面临两个问题：过多依赖合成微基准测试，无法捕捉真实工作负载的时间动态；领域局限性强，缺乏跨域（AI+HPC+存储）统一框架。

ATLAHS 是一个以应用为中心的、灵活可扩展的开源工具链：

ATLAHS 基于 Group Operation Assembly Language (GOAL)，一种高层次的DAG抽象，统一表示分布式系统中的计算和通信。类似Java字节码的角色——将任何应用的trace转换为统一表示。

阶段	描述
Stage 1	Nsight Systems分析GPU流活动，NVTX标注NCCL通信器信息
Stage 2	遍历GPU的nsys report，构建NCCL操作链表，推断计算量
Stage 3	最复杂——根据NCCL_ALGO/NCCL_PROTO等参数将集体操作分解为send/recv/computation依赖图
Stage 4	多GPU的DAG合并为每节点一个DAG，支持”what-if”场景分析

维度	ATLAHS LGS	AstraSim	加速比
4节点	5.50s	76.63s	13.9×
32节点	232.20s	636.87s	2.7×

ATLAHS 是一项工程价值突出的工作。其核心创新不在于提出新的模拟算法，而在于架构设计——用GOAL作为统一中间表示，构建跨应用领域的网络仿真工具链。对于从事AI训练基础设施优化的工程师来说，是一个非常有价值的开源工具。