logo

LLM Post-training

wangzf / 2025-07-28


目录

LLM Pre-training 问题

预训练架构在特定情境下常常暴露出局限性:

LLM Post-training 范式

LLM Post-training 在五个核心范式中的演变:

预训练和后训练

LLMs 可以分为两个主要阶段:预训练(pre-training) 和后训练(post-training)。

预训练

预训练的概念源自计算机视觉(CV)任务中的迁移学习。其主要目标是使用大量数据集开发一个通用模型, 以便轻松微调以适应各种下游应用。预训练的一个重要优势是能够利用任何未标注的文本语料库, 从而提供丰富的训练数据来源。然而,早期的静态预训练方法,如神经网络语言模型(NNLM) 和 Word2vec, 难以适应不同的文本语义环境,促使了动态预训练技术的发展,如 BERT 和 XLNet。 BERT 通过利用 Transformer 架构并在大规模未标注数据集中使用自注意力机制, 有效解决了静态方法的局限性。这项研究建立了“预训练和微调”的学习范式,启发了众多后续研究, 引入了多种架构,包括 GPT-2 和 BART。

后训练

技术简介

后训练是指模型经过预训练后所采用的技术和方法,旨在细化和适应特定任务或用户需求。 随着具有 1750 亿个参数的 GPT-3 的发布,后训练领域经历了显著的兴趣和创新激增。 出现了多种方法来提高模型性能,包括微调(fine-tuning),即使用标注数据集或特定任务数据调整模型参数; 对齐策略(alignment strategies),即优化模型以更好地与用户偏好对齐; 知识适配技术(knowledge adaptation techniques),即使模型能够纳入领域特定知识; 以及推理改进(reasoning improvements),即增强模型的逻辑推理和决策能力。 这些技术统称为后训练语言模型(PoLMs),催生了如 GPT-4、LLaMA-3、Gemini-2.0 和 Claude-3.5 等模型的开发, 标志着 LLM 能力的重大进展。然而,后训练模型通常难以不经重新训练或重大参数调整而适配新任务, 这使得 PTM 开发成为活跃的研究领域。

正如所强调的,预训练语言模型(PLMs) 主要旨在提供一般知识和能力, 而 PoLMs 则专注于将这些模型适应特定任务和需求。一个显著的例子是最新一代的 LLM,DeepSeek-R1, 它展示了 PoLMs 在增强推理能力、与用户偏好对齐以及提高跨领域适应性方面的演变。 此外,开源 LLMs(例如 LLaMA、Gemma 和 Nemotron)和领域特定的大规模数据集(例如 Prompt Source 和 Flan)的日益可用, 正在推动学术研究人员和行业从业者开发 PoLMs 的趋势。这一趋势突显了在 PoLMs 领域中定制适应性的重要性。

img

技术结构

img

Post-training 公式基础

策略优化原理

RLHF 原理

DPO 原理

GRPO 原理

Post-training 微调

微调构成了将预训练大型语言模型(LLMs)适应特定任务的核心,通过有针对性的参数调整来优化其能力。 这一过程利用标注数据集或任务特定数据集来优化性能,弥合通用预训练与领域特定需求之间的差距。

有监督微调

自适应微调

强化学习微调

Post-training 对齐

Post-training 推理

Post-training 效率

Post-training 集成和适配

参考