深度学习优化策略

梯度裁剪策略是解决模型训练过程中梯度爆炸策略的一个有效方法,为什么会导致梯度爆炸呢?我们知道,如果模型如下 f(x)=wx+b f(x)=wx+b 省略b的情况下,梯度Δ=x\Delta = x,当xx值过大情况下,则可能会发生梯度爆炸现象,这时,我们可以对梯度进行裁剪,使之规范在指定范围内,如此一来可避免类似现象。