Batch Normalization(简称BN),被提出在Google于2015年发表的《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》。
不少同学都知道,机器学习模型往往需要一个训练集,训练之后才会使用到测试集或者其他实用场合中,这里有一个基本假设就是,训练集和测试集的数据是独立同分布的。在概率论与统计学中,独立同分布(英语:Independent and identically distributed,缩写为IID)是指一组随机变量中每个变量的概率分布都相同,且这些随机变量互相独立。一组随机变量独立同分布并不意味着它们的样本空间中每个事件发生概率都相同。例如,投掷非均匀骰子得到的结果序列是独立同分布的,但掷出每个面朝上的概率并不相同。
在深度学习中,由于问题的复杂性,我们往往会使用较深层数的网络进行训练,而在深度网络前向传播的过程中,每一层的输入都是上一层的输出,而在相邻的两层之间由于各种原因,输出的数据也并不一定是IID的,这个现象称为“Internal Covariate Shift”,因此我们需要将每一层的输出也转换为IID,Normalize常被用来实现这个过程,例如Dropout,L1正则化、L2正则化等都可以视为是一种Normalize,此外,还有一种方式叫白化(Whiten),就是对输入数据分布变换到0均值,和单位方差的分布,即正态分布。但白化的计算成本很高,尽管它可能是效果最明显的方法。
白化的计算方式各位同学可以在赛后自行查阅。
此外,由于算力因素的制约,我们往往无法将训练集一次性全部输入深度网络来训练,因此有mini-batch方式将原数据集切分为n_batch个批次来依次训练,这也是深度学习之所以备受瞩目的原因(便于分布式训练)。并且白化很难扩展到mini-batch的情况,因此就有了Batch Normalization。
BN层共有四个参数:moving_mean, moving_var, gamma, beta。
其中gamma和beta是在深度网络中接受反向传播优化,和传递梯度的参数,在本题中不考虑反向传播训练优化,始终使用给定的数值进行计算。(在BN理论中,gamma和beta是用来维持输入的分布信息的)
这里给出一个直接的计算模板(伪Python代码, 即使没学过也不可能看不懂,使用Python的选手也不用寄希望于复制粘贴就能运行,也不支持使用numpy或者scipy等Python库)
函数定义:
def batch_norm(X, gamma, beta, moving_mean, moving_var, is_training=True, eps=1e-5, momentum=0.9,):
其中X是shape为的张量,gamma, beta, moving_mean, moving_vars是
的张量,is_training表示是否是训练模式。
返回 out, moving_mean, moving_var,out是计算结果,moving_mean, moving_var是本轮更新后的moving_mean, moving_var。
X = {{1.2, 2.3, 3.4, 4.5}, {2.3, 3.4, 4.5, 5.6}, {3.4, 4.5, 5.6, 6.7},} gamma = {1.0, 2.0, 3.0, 4.0}; beta = {2.0, 3.0, 4.0, 5.0} moving_mean = {0.0,0.0,0.0,0.0} moving_var = {1.0,1.0,1.0,1.0} eps = 1e-5 momentum = 0.9而言,
{2.3000, 3.4000, 4.5000, 5.6000} {0.8067, 0.8067, 0.8067, 0.8067} {0.2300, 0.3400, 0.4500, 0.5600} {0.9807, 0.9807, 0.9807, 0.9807} {{-1.2247, -1.2247, -1.2247, -1.2247}, {0,.0,0.0,0.0,0.0} {1.2247, 1.2247, 1.2247, 1.2247}} {{0.7753, 0.5505, 0.3258, 0.1011}, {2.0000, 3.0000, 4.0000, 5.0000], {3.2247, 5.4495, 7.6742, 9.8989]}
{2.3000, 3.4000, 4.5000, 5.6000} {0.8067, 0.8067, 0.8067, 0.8067} {{1.2000, 2.3000, 3.4000, 4.5000}, {2.3000, 3.4000, 4.5000, 5.6000}, {3.4000, 4.5000, 5.6000, 6.7000}} {{ 3.2000, 7.6000, 14.1999, 22.9999}, { 4.3000, 9.8000, 17.4999, 27.3999}, { 5.4000, 12.0000, 20.7999, 31.7999}}注意我们的提交里不需要输出上述函数定义里的print,示例的print仅用于方便理解。
for i in range(n_batch): out, moving_mean, moving_var = batch_norm(X, gamma, beta, moving_mean, moving_var, True, eps, momentum) out, moving_mean, moving_var = batch_norm(X, gamma, beta, moving_mean, moving_var, False, eps, momentum)
while(n_batch--){ out, moving_mean, moving_var = batch_norm(X, gamma, beta, moving_mean, moving_var, true, eps, momentum); } out, moving_mean, moving_var = batch_norm(X, gamma, beta, moving_mean, moving_var, false, eps, momentum); //C/C++当然是不能直接返回三个返回值的,这只是表示batch_norm这个函数会更新moving_mean和moving_var的值而已,
第一行为三个整数和两个浮点数,分别为n, c, n_batch, eps, momentum。
接下来的
行,每行有
个浮点数,分别表示
的各个元素
接下来的
行有
个浮点数,表示gamma的该元素初始值
接下来的
行有
个浮点数,表示beta的该元素初始值
接下来的
行有
个浮点数,表示moving_mean的该元素初始值
接下来的行有
个浮点数,表示moving_var的该元素初始值
所有值的范围都在
。
结果out是一个的张量,请保留四位小数,输出
行,第
行为第
个张量的
个值,按一个空格分隔。
输出结果与正确结果的每个元素的误差不超过0.001即视为正确。