YYMuse

Dropout

Dropout
训练与优化

训练时随机让一部分神经元不激活,强迫网络学习冗余表示,是防止过拟合的标准正则化技术。

# 正则化 # 训练技巧

Dropout

机制: 每次前向传播时,以概率 p 将随机神经元输出置为 0(训练时激活,推理时关闭)。

效果: 相当于训练了指数级数量的子网络,预测时取平均,降低过拟合。

常见设置: - 全连接层:p = 0.5 - 卷积层:p = 0.1-0.3 - Transformer:Attention 和 FFN 后均有 dropout

注意: 推理时必须关闭 Dropout,并缩放激活值补偿。

← 返回词汇列表