PM 与 AI 领域核心概念速查手册
共 4 个词条
训练时随机让一部分神经元不激活,强迫网络学习冗余表示,是防止过拟合的标准正则化技术。
在预训练模型基础上,用特定领域数据继续训练,使模型更擅长目标任务,同时保留通用能力。
通过只训练少量低秩矩阵来适配大模型,大幅降低微调的显存和计算需求,是目前最主流的高效微调方法。
通过人类对模型输出的偏好评分训练奖励模型,再用强化学习优化 LLM,使其更有帮助、更无害、更诚实。