Dropout
Dropout训练时随机让一部分神经元不激活,强迫网络学习冗余表示,是防止过拟合的标准正则化技术。
# 正则化
# 训练技巧
Dropout
机制: 每次前向传播时,以概率 p 将随机神经元输出置为 0(训练时激活,推理时关闭)。
效果: 相当于训练了指数级数量的子网络,预测时取平均,降低过拟合。
常见设置: - 全连接层:p = 0.5 - 卷积层:p = 0.1-0.3 - Transformer:Attention 和 FFN 后均有 dropout
注意: 推理时必须关闭 Dropout,并缩放激活值补偿。