DeepSeek应对梯度消失或梯度爆炸
问题:DeepSeek模型在训练过程中出现梯度消失或梯度爆炸怎么办?
答案:对于梯度消失,可以采用ReLU等激活函数代替Sigmoid函数,使用残差连接;对于梯度爆炸,可以采用梯度裁剪技术,限制梯度的大小,还可以调整学习率等超参数 。