YYMuse

Dropout

训练与优化

训练时随机让一部分神经元不激活，强迫网络学习冗余表示，是防止过拟合的标准正则化技术。

# 正则化 # 训练技巧

机制： 每次前向传播时，以概率 p 将随机神经元输出置为 0（训练时激活，推理时关闭）。

效果： 相当于训练了指数级数量的子网络，预测时取平均，降低过拟合。

常见设置： - 全连接层：p = 0.5 - 卷积层：p = 0.1-0.3 - Transformer：Attention 和 FFN 后均有 dropout

注意： 推理时必须关闭 Dropout，并缩放激活值补偿。