LLM 四个阶段

从零开始训练大语言模型（LLM），使其能够应用于真实场景的四个阶段，包括以下内容：

以下是各阶段的详细解释：

随机初始化的 LLM

在最初，模型是完全随机初始化的，没有任何知识。这时如果你问它“什么是 LLM？”，它可能会胡言乱语，比如“try peter hand and hello 448Sn”。因为它还没有接触任何数据，参数全是随机的。

在这个阶段，我们通过大规模语料库训练模型进行“下一个 token 的预测”任务，从而让模型掌握语言的基本规则。它会学到语法、常识、世界知识等。

但此时的模型并不善于对话，它只是“继续文本”，而不是理解和回应指令。

为了让模型更善于交互，我们引入指令微调。具体是用“指令-回复（instruction-response）”的成对数据训练模型，帮助它学习如何遵循用户的提示，如何格式化回复。

经过这一步，模型已经能做很多事情，比如：

到这一步，模型基本上：

那么我们如何进一步提升模型质量呢？

这时，就进入了强化学习（RL）的阶段。

你可能见过 ChatGPT 提示你选择“你更喜欢哪个回答？”的界面。这不仅是为了收集用户反馈，更是极其宝贵的“人类偏好数据”。

OpenAI 就是利用这类数据进行偏好微调。

流程如下：

这个过程被称为 RLHF（Reinforcement Learning with Human Feedback），它能帮助模型在没有明确“正确答案”的情况下，更好地对齐人类意图。

对于数学、逻辑等推理任务来说，往往只有一个正确答案，且存在清晰的解题步骤。在这种场景下，我们不再依赖人类偏好，而是直接使用“正确性”作为奖励信号。

这个过程叫做基于可验证奖励的强化学习（Reinforcement Learning with Verifiable Rewards）。

具体流程：

GRPO（Generalized Rejection-penalized Policy Optimization）是 DeepSeek 推出的一种代表性方法。

★ 总结：LLM 从零到实用的四个训练阶段