logo

LLM 四个阶段

wangzf / 2025-07-23


目录

从零开始训练大语言模型(LLM),使其能够应用于真实场景的四个阶段,包括以下内容:

以下是各阶段的详细解释:

随机初始化的 LLM

在最初,模型是完全随机初始化的,没有任何知识。 这时如果你问它“什么是 LLM?”,它可能会胡言乱语,比如“try peter hand and hello 448Sn”。 因为它还没有接触任何数据,参数全是随机的。

预训练 Pre-training

在这个阶段,我们通过大规模语料库训练模型进行“下一个 token 的预测”任务,从而让模型掌握语言的基本规则。 它会学到语法、常识、世界知识等。

但此时的模型并不善于对话,它只是“继续文本”,而不是理解和回应指令。

指令微调 Instruction Fine-tuning

为了让模型更善于交互,我们引入指令微调。 具体是用“指令-回复(instruction-response)”的成对数据训练模型, 帮助它学习如何遵循用户的提示,如何格式化回复。

经过这一步,模型已经能做很多事情,比如:

到这一步,模型基本上:

那么我们如何进一步提升模型质量呢?

这时,就进入了强化学习(RL)的阶段。

偏好微调 Preference Fine-tuning, PFT

你可能见过 ChatGPT 提示你选择“你更喜欢哪个回答?”的界面。 这不仅是为了收集用户反馈,更是极其宝贵的“人类偏好数据”。

OpenAI 就是利用这类数据进行偏好微调。

流程如下:

这个过程被称为 RLHF(Reinforcement Learning with Human Feedback), 它能帮助模型在没有明确“正确答案”的情况下,更好地对齐人类意图。

推理微调 Reasoning Fine-tuning

对于数学、逻辑等推理任务来说,往往只有一个正确答案,且存在清晰的解题步骤。 在这种场景下,我们不再依赖人类偏好,而是直接使用“正确性”作为奖励信号。

这个过程叫做 基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards)。

具体流程:

GRPO(Generalized Rejection-penalized Policy Optimization) 是 DeepSeek 推出的一种代表性方法。

★ 总结:LLM 从零到实用的四个训练阶段

  1. 随机初始化:模型无任何知识;
  2. 预训练:学习语言结构和世界常识;
  3. 指令微调:学会理解指令、格式化回复;
  4. 偏好/推理微调:进一步提升对齐人类意图与推理能力。