Virtual Width Networks (VWN):解耦表征宽度与骨干宽度的新缩放维度

ByteDance Seed 团队 | arXiv: 2511.11238 | 2025年11月


一、论文概览

属性内容
标题Virtual Width Networks
arXiv2511.11238
机构ByteDance Seed
发表2025年11月
代码未开源
核心方法Over-Width Embedding + Generalized Hyper-Connections (GHC) + Multi-Token Prediction (MTP)
实验模型MoE-A0.8B, MoE-A3.3B (内部 MoE 架构)

核心贡献

  • Virtual Width Networks (VWN) — 将 Embedding 宽度与骨干网络宽度解耦,实现 r× 虚拟宽度扩展,骨干计算量几乎不变
  • Generalized Hyper-Connections (GHC) — 统一了 Hyper-Connections 和 Frac-Connections 的形式化框架,提供灵活的虚拟状态与骨干状态路由
  • Virtual Width Scaling Law — 发现虚拟宽度因子 r 与 Loss 之间近似 log-linear 的缩放关系,提出虚拟宽度作为模型效率缩放的新维度
  • VWN × MTP 协同效应 — VWN 扩展的表示空间与多 token 预测联合优化,下游精度持续提升

二、问题背景

2.1 Transformer 宽度缩放的根本矛盾

根据 Scaling Laws [Kaplan+20, Hoffmann+22],增大模型参数或训练数据都能提升模型能力。其中增大模型宽度(hidden dimension D) 是提升表征能力的直接方式——更大的 hidden size 允许每个向量携带更多信息。

然而,Transformer 的计算复杂度是 O(D²)

  • Attention: 4·L·D² FLOPs
  • FFN: 8·L·D² FLOPs (标准 FFN, 4× expansion)
  • Embedding 查找: V·D FLOPs(占比极小)

这意味着 naive 的宽度翻倍带来 4× 计算开销

2.2 MoE 的局限

MoE 通过条件计算扩展了 FFN 内部的专家数,但骨干宽度 D 仍然固定。模型的表示能力受限于 hidden dimension D(瓶颈效应)。直接增大 D 可以突破这个瓶颈,但代价是 O(D²) 的计算增长。

核心问题:能否享受宽表示的好处,同时避免 naive 宽度缩放的二次计算成本?


三、技术方法详解

3.1 VWN 整体架构

VWN 的核心洞察:Embeding 查找的计算开销远小于骨干网络,因此可以大幅扩展 Embedding 宽度而几乎不增加总计算量。

┌──────────────────────────────────────────────────────┐
│  Standard Transformer                                 │
│  Embedding(D) → Transformer Layer(D) → Output(D)     │
│              所有层共享同一宽度 D                       │
├──────────────────────────────────────────────────────┤
│  Virtual Width Network (VWN)                          │
│  Embedding(D') → VWN Layer → VWN Layer → ... → Reduce │
│                     ↑            ↑                    │
│               backbone: D    backbone: D               │
│              虚拟宽度: D'=r·D   虚拟宽度: D'=r·D       │
└──────────────────────────────────────────────────────┘

三个关键组件

  1. Over-Width Embedding — 将输入嵌入扩展到更宽的维度 D’ = r·D
  2. Generalized Hyper-Connections (GHC) — 轻量级路由机制,将超宽隐藏状态压缩到标准宽度 D 输入骨干层,再将输出扩展回去
  3. Reduce Operator — 在输出层前将超宽状态映射回标准宽度

3.2 Over-Width Embedding

将输入 Embedding 从标准维度 D 扩展到宽度 D’:

e ∈ ℝ^D'    其中 D' = (n/m)·D

其中整数参数:

  • m:将标准宽度 D 划分为 m 个片段
  • n:将扩展宽度 D’ 划分为 n 个片段
  • r = n/m:虚拟宽度扩展因子

当扩展比 n/m 较大时,可以使用低秩投影:

E_wide = W_expand · E_base    (W_expand ∈ ℝ^{D'×D})

输出层使用 Reduce 算子 将超宽状态投影回标准宽度:

h_L_reduce = W_reduce · h'_L    (W_reduce ∈ ℝ^{D×D'})

Reduce 前应用 Group Normalization(group size = 原始宽度 D)以稳定训练。

3.3 Generalized Hyper-Connections (GHC)

GHC 是 VWN 的核心技术,它统一了 Hyper-Connections (HC) 和 Frac-Connections (FC) 的形式化框架。

路由矩阵

在第 l 层,GHC 使用一个轻量变换矩阵 GHC_l ∈ ℝ^{2m × (m+n)}:

GHC_l = [0  B_l]
        [A_l  Â_l]

其中:
- A_l ∈ ℝ^{n × m}    宽度连接(前一层虚拟状态 → 当前层输入)
- Â_l ∈ ℝ^{n × n}    深度连接(前一层虚拟状态的衰减/保留)
- B_l ∈ ℝ^{m × n}    残差连接(当前层骨干输出 → 虚拟状态更新)

前向传播

H'_l = GHC_l(T_l, H'_{l-1})
     = B_l^⊺ · T_l( A_l^⊺ · H'_{l-1} ) + Â_l^⊺ · H'_{l-1}

其中:

  • H'_l:第 l 层的超宽隐藏状态,形状为 (n, D'/n)
  • T_l:Transformer 骨干层(Attention 或 FFN)
  • A_l^⊺ · H'_{l-1}:将超宽状态压缩到骨干宽度 D
  • B_l^⊺ · T_l(...):将骨干输出写回超宽状态
  • Â_l^⊺ · H'_{l-1}:前一层虚拟状态的衰减/保留(类似 carry 门控)

动态 GHC (DGHC)

为了增强适应性,GHC 的变换矩阵可以基于输入自适应生成:

B(H') = S_β · tanh(H'W_β / τ) + B
A(H') = S_α · tanh(H'W_α / τ) + A

其中 W_β, W_α 是可学习映射矩阵,S_β, S_α 是缩放矩阵(初始化为 1),静态部分 B, A 按特定模式初始化。

初始化策略

B 矩阵:循环模式

B[i, j] = 1 if i = j mod m, else 0

A 矩阵:块矩阵,包含单位块和零块

计算开销分析

以 m=2, n=3(1.5× 扩展)为例:

  • Normalization: 4·(n/m)·D = 6D FLOPs
  • 动态参数计算: 2·(2m+n)·n/m·D ≈ 14D FLOPs
  • 宽度连接: 2·(m+n)·n/m·D ≈ 15D FLOPs
  • 深度连接: 2nD = 6D FLOPs

总计约 42D FLOPs,与主干 O(D²) 相比极小。

额外显存

VWN 增加的激活显存约为 4η·n/m·D 字节/层(η 为保存比例)。当 m=2, n=3, η=0.5 时,仅增加 3D 字节,相当于标准 Transformer 层的约 8.8%

3.4 深度方向注意力视角

VWN 可以通过沿深度轴的注意力来重新理解:

深度序列视角:
层索引 = token 位置
隐藏状态 = vertical KV cache
路由模式 ≈ 注意力窗口
  • 无残差:滑动窗口 size=1
  • 标准残差:窗口 size=2
  • Dense 连接:窗口 size=全部
  • VWN/GHC学习的线性注意力,固定成本,可访问更宽深度上下文

展开公式(Eq. 13):

H'_l = Σ_{t=0}^{l-1} (Π_{i=0}^{t-1} Â^{⊺}_{l-i}) · B^{⊺}_{l-t} · T_{l-t}(A^{⊺}_{l-t}, H'_{l-t-1})
       + (Π_{i=0}^{l-1} Â^{⊺}_{l-i}) · H'_0

m 参数的作用

  • m=1:存储 r 层的全精度 D 维状态(更少层,更高保真度)
  • m>1:存储 n=rm 层,每层压缩到 D/m(更多层,更低保真度)
  • m 控制单层保真度,n 控制深度窗口大小,r = n/m 固定总预算

3.5 Multi-Token Prediction (MTP) 适配

VWN 与 MTP 结合时,naive 的 dense mixing(2rD → rD)开销太大(r=8 时不可接受)。采用 Block-level Linear 方案:

  • 将 rD 维向量划分为 n = r×m 个片段,每个片段大小为 D/m
  • 每个片段共享相同的小线性投影 (2D/m → D/m)
  • 保持 VWN 宽表示的好处,同时 mixing 成本与 r=1 相近

四、实验评估

4.1 实验设置

项目内容
模型内部 MoE 架构 (0.4B/4B, 2.5B/30B, MoE-A0.8B, MoE-A3.3B)
规模0.4B → 3.3B activation (最大 30B total parameters)
数据内部大规模数据集,最高 3.2T tokens
对比匹配参数量的非 VWN Baseline
评估Collection A (16个benchmark) + Collection B (13个benchmark)

4.2 1.5× 虚拟宽度(Fractional Scalling)

0.4B/4B MoE:

  • VWN 持续降低 NTP loss
  • MTP 单独使用略微增加 NTP loss
  • VWN+MTP 组合在下游评估中持续最高

2.5B/25B MoE:

  • VWN 降低 next-token loss ~0.015
  • VWN+MTP 达到最低 final loss
  • 下游精度持续优于 baseline

4.3 大规模虚拟宽度(8×)

MoE-A0.8B (消融实验):

模型Δ NTP LossΔ Next-2 Loss精度提升
VWN×20.0200.030+3.20 pts
VWN×40.0280.045+3.50 pts
VWN×80.0350.058+4.16 pts

MoE-A3.3B (主力实验,8× 虚拟宽度):

  • 达到 baseline next-token loss 需要 2.5× 更少 tokens
  • 达到 next-2-token loss 需要 3.5× 更少 tokens
  • Loss gap 随训练持续增大(从 Δ=0.025 增长到 Δ=0.032)
  • 下游精度 +2.16 points

4.4 缩放定律

发现虚拟宽度因子 r 与 loss 之间存在 log-linear 缩放关系

Loss(r) = -0.0069 · log₂(r) + 1.6212    (R² = 0.9986)

即:虚拟宽度每翻倍,loss 降低约 0.0069。虽然幅度不大,但表明虚拟宽度可以作为一个可预测的缩放维度。

4.5 下游 Benchmark 详细结果 (MoE-A0.8B)

Benchmark提升说明
DROP+8.92 pts阅读理解+推理,受益于扩展 embedding 空间
MATH+4.20 pts数学推理
MMLU+3.95 pts通用知识
MMLU-Pro+5.25 pts增强版通用知识
TriviaQA+7.45 pts长上下文检索
HumanEval+2.44 pts代码生成(测试集有限,提升较小)

五、亮点与局限

亮点

  1. 优雅的解耦思路 — 利用 Embedding 计算占比极小的特点,将表示宽度与骨干宽度解耦,以几乎零计算成本换取显著的训练效率提升
  2. 形式化统一 — GHC 统一了 Hyper-Connections 和 Frac-Connections,为后续研究提供了系统化的理论框架
  3. 缩放定律发现 — 识别了虚拟宽度的 log-linear scaling,开辟了除 depth/width/data 外的第四缩放维度
  4. 大规模验证 — 在 3.3B activation MoE 上验证,VWN×8 实现 2-3× token 效率提升,且优势随训练时间持续扩大
  5. 与 MTP 的协同 — VWN 扩展的表示空间为多 token 预测提供了额外的表征自由度

局限

  1. 硬件不友好 — 超宽激活(r=8 时 D’=32K)在当前 GPU 上内存访问和跨设备通信开销显著,实际部署 1.5-4× 更现实
  2. 未开源 — 无公开代码/模型,结果难以复现
  3. 仅验证 MoE 架构 — 未在 Dense Transformer 上系统验证
  4. 计算 vs 实际效率 — 理论 FLOPs 增益 ≠ 实际训练吞吐量提升(I/O 瓶颈、kernel fusion 复杂度)
  5. 缩放定律幅度有限 — 每翻倍仅降低 0.0069 loss,相比 model/data scaling 的收益要小得多
  6. Scalability 验证规模 — 最大仅 3.3B activation,未在 100B+ 级别验证

六、个人评价

VWN 是一个理论上优雅、实用上有挑战的工作。核心贡献在于提出了一种新的缩放维度(虚拟宽度),并通过大规模实验初步验证了其有效性。GHC 的形式化统一也很有理论价值。

但需要理性看待:

  • Perplexity 收益(每翻倍 -0.0069 loss)相比传统的 width scaling 要小得多
  • 实际训练效率受 I/O 瓶颈限制,GHC 的 kernel fusion 和工程优化是关键
  • 当前 GPU 架构(尤其是 HBM 带宽和片上 SRAM 大小)对大激活宽度不友好

本质上,VWN 更适合作为一个预训练加速技术(用更少 token 达到同等 loss),而非替代传统 scaling 策略。


相关链接