#弥散

梯度弥散与梯度爆炸

先来看看问题描述。当我们使用sigmoidfunciton作为激活函数时,随着神经网络hiddenlayer层数的增加,训练误差反而加大了,如上图所示。下面以2层隐藏层神经网络为例,进行说明。结点中的柱状图表示每个神经元参数的更新速率(梯度)大小,有图中可以看出,layer2整体速度都要大于layer1.我们又取每层l...
代码星球 ·2021-02-12