MicroRec: Efficient Recommendation Inference by Hardware and Data Structure Solutions

一、论文概览

属性	内容
标题	MicroRec: Efficient Recommendation Inference by Hardware and Data Structure Solutions
arXiv	2010.05894
机构	ETH Zurich (Systems Group)
发表	MLSys 2020

传统 Embedding 表：L 个表，每表 N 行，每行 D 维，所有特征均匀。

Micro-Embedding：收集所有特征 ID 的全局频率，将高频特征组织为微型子表，低频特征移到 CPU。GPU 内部只保留高频子表，实现：

传统特征交互：逐对做 dot product → warp 利用率极低（SIMT 效率 <30%）。

Micro-Interaction：将所有 dot product 打包为 WMMA(TensorCore) 操作，相当于：

打包前：N² × (向量点积) → warp 发散严重
打包后：WMMA(矩阵乘法) → TensorCore 满效率