AI 八股(1):BN, LN, RMSNorm

Last updated on January 28, 2026 pm

本期主要讲解 BN (Batch Norm)、LN (Layer Norm) 和 RMSNorm 三种主流 Norm 技术。

前置知识:维度与归一化

首先,我们需要建立“数据立方体”的视角,搞清楚有哪几个维度。假设有一批数据,

  • 对于 CV,数据形状一般是 (N,C,H,W)(N, C, H, W),其中 NN 是样本数量,CC 是通道数(特征维度),HHWW 是高度和宽度(空间维度)。
  • 对于 NLP,数据形状一般是 (N,L,D)(N, L, D),其中 NN 是样本数量,LL 是序列长度(空间维度),DD 是特征维度。

所有的 Normalization 本质上都是三个步骤:

  1. 在特定维度上计算均值(Mean)和方差(Variance);

  2. 用均值和方差对数据进行标准化(减均值,除标准差);

  3. 引入可学习参数 γ\gamma(缩放)和 β\beta(平移)恢复表达能力。

y=xμσ2+ϵγ+βy=\frac{x-\mu}{\sqrt{\sigma^2+\epsilon}} \cdot \gamma+\beta

不同 Normalization 技术的区别仅在于:我们在哪些维度上计算 μ\muσ\sigma

Batch Normalization (BN)


AI 八股(1):BN, LN, RMSNorm
https://cny123222.github.io/2026/01/28/AI-八股-1-:BN-LN-RMSNorm/
Author
Nuoyan Chen
Posted on
January 28, 2026
Licensed under