Merlin HugeCTR: GPU-accelerated Recommender System Training and Inference

一、论文概览

属性	内容
标题	Merlin HugeCTR: GPU-accelerated Recommender System Training and Inference
arXiv	2210.08803
机构	NVIDIA
代码	(NVIDIA Merlin 框架的一部分)

核心贡献

GPU 端 Embedding 分片训练：将 TB 级 Embedding 表分布到多 GPU
Model Parallelism for Embedding：支持按 table/row/column 三种分片策略
All2All 通信优化：Embedding 训练特有的 All-to-All 通信模式
Triton 推理部署：与 NVIDIA Triton Inference Server 集成

二、技术架构

Embedding 分片策略

策略	划分方式	适用场景
Table-Wise	整个表在不同 GPU	表数 > GPU 数
Row-Wise	表内行哈希分片	单表极大（TB 级）
Column-Wise	表内列/维度分片	维度极大（1000+）

训练流程

CPU Pipeline: 数据加载 → Embedding 分片 → All2All 通信 → GPU MLP 训练
GPU Pipeline: 接收分片 Embedding → Bottom MLP → Feature Interaction → Top MLP

性能

与 CPU baseline 相比，训练吞吐提升 40-60×（在 8×A100 上）。

相关链接