在多模态生成(如文生图、3D生成)和视觉语言模型(VLM/VLA)的架构设计中,如何将外部条件(如文本、音频、时间步、控制信号)优雅且高效地“注入”到主干网络(Backbone)中,是决定模型性能的核心。
以下是深度整合了底层张量维度差异的5 大类主流信息注入方法全景指南:
第一类:特征调制 (Feature Modulation)
核心逻辑:不改变主干特征的维度(不增加新的 Token 或通道),而是通过改变特征的统计分布(均值和方差)或通道激活状态来注入全局条件。
此类方法在数学上都遵循仿射变换(Affine Transformation)的范式:
y=γ(c)⋅Φ(x)+β(c)y = \gamma(c) \cdot \Phi(x) + \beta(c)y=γ(c)⋅Φ(x)+β(c)
其中,xxx是主干特征,ccc是外部条件,γ(c)\gamma(c)γ(c)和β(c)\beta(c)β(c)是由条件映射出的缩放(Scale)和平移(Shift)参数。Φ(x)\Phi(x)Φ(x)代表对特征的处理(可以是恒等映射,也可以是特定维度的归一化)。
根据Φ(x)\Phi(x)Φ(x)处理的张量物理维度不同,这个家族演化出了四大经典变体:
1. FiLM (Feature-wise Linear Modulation) —— 纯调制的开山鼻祖
- 计算维度:Φ(x)=x\Phi(x) = xΦ(x)=x(无强制归一化)。对于[N,C,H,W][N, C, H, W][N,C,H,W]的特征,条件网络输出[N,C][N, C][N,C]维度的γ\gammaγ和β\betaβ,直接在空间维度跨