推理模型：让大模型"想清楚再说"的范式革命

做一个思想实验。

给你一道高考数学最后一题，但只给你 3 秒钟作答。你会怎样？

大概率，你会凭直觉蒙一个答案。运气好，蒙对了；运气不好，错得离谱。

现在换个条件：同一道题，给你 30 分钟，还给你一张草稿纸。你会怎样？

你会列条件，画图，推导中间步骤，验算一遍，然后写下答案。正确率天壤之别。

有意思的是——你的大脑没有变。你的知识量没有增加一个字节，你的智商没有高出一分。唯一改变的，是你被允许"想一想"。

2024 年 9 月，OpenAI 发布了 o1 模型。从那天起，大模型的世界发生了一件本质性的变化：AI 也被允许"想一想"了。

到了 2026 年，几乎所有主流模型都有了"推理版本"——GPT-5.4 thinking、DeepSeek-R1、Claude extended thinking、Gemini 的推理模式。推理模型不再是实验品，而是生产力工具。

但大多数开发者只知道"推理模型效果更好"，却说不清楚为什么让模型多想一会儿，答案就会好很多。

今天，我们来把这件事拆开看。

它到底在"想"什么？

先回答一个最基本的问题：所谓的"推理模型"和普通大模型，到底有什么不一样？

从用户视角看，区别很简单——推理模型在回答你之前，会先在一个"思考区域"里自言自语一大段话。有时候几百字，有时候几千字。你能看到它在分析问题、拆解步骤、自我纠错，然后才给出最终答案。

这个过程，在技术上叫做链式思维（Chain of Thought, CoT）。

打个比方。

普通大模型做题，像一个"闭卷考试选手"——看到问题，脑子里闪过训练时见过的类似模式，立刻蹦出答案。快是快，但遇到没见过的复杂题，就容易瞎编。

推理模型做题，像一个"被允许打草稿的考试选手"——看到问题后，先在草稿纸上列出已知条件、画出关系图、尝试第一种解法、发现走不通、换一条路、验算中间结果，最后才写下答案。

来看一个真实的例子。问一个简单的逻辑题：

"一个房间里有 3 个开关，对应隔壁房间的 3 盏灯。你只能进隔壁房间一次。怎么确定每个开关对应哪盏灯？"

普通模型可能直接给你一个答案，有时对有时错。

推理模型的"草稿纸"上会出现这样的过程：

<think>
让我分析这个问题...
只能进一次隔壁房间，所以我需要最大化一次观察的信息量。
3个开关，3盏灯，每个开关控制一盏灯。

如果我只是开两个关一个，进去后能分出"开着的"和"关着的"，
但两盏开着的灯我分不出谁对应谁。

等等，灯泡除了亮和灭，还有什么状态？
灯泡开久了会发热！

所以策略是：
1. 打开开关1，等10分钟
2. 关掉开关1，打开开关2
3. 进隔壁房间
   - 亮着的灯 → 开关2
   - 灭了但摸着热的 → 开关1
   - 灭了且冷的 → 开关3
</think>

看到了吗？它不是一步到位的。它先尝试了一个思路（只看开和关），发现信息量不够，然后自己发现了"温度"这个额外维度，最终找到了正确解法。

这个过程，和你在草稿纸上的推演过程几乎一模一样。

关键区别

普通大模型是"直觉型选手"——看到题就写答案，一次性输出，没有中间过程。推理模型是"分析型选手"——先在 <think> 标签里把问题想清楚，再给你答案。差别不在于谁"更聪明"，而在于谁被允许"多想一步"。

但这里有一个问题。你可能会说：这不就是以前的 "Let's think step by step" 提示词技巧吗？

不是。完全不是。

以前的 CoT 提示词，是你强迫模型按步骤输出——你在提示词里写"请一步一步思考"，模型照做。但它的"步骤"更像是在表演推理，而不是真的在推理。它可能会写出好看的步骤，但每一步并不能真正帮助它得到更好的答案。

而推理模型的 CoT，是通过训练内化出来的能力。模型自己学会了：在回答之前先思考，思考错了就纠正，一条路走不通就换一条。

这就像"教一个学生做题时写草稿"和"这个学生天生就爱打草稿"的区别。前者可能在你不盯着的时候就不写了，后者则是发自内心觉得打草稿有用。

推理模型的秘密，不是知道更多，而是被训练成了一个"爱打草稿"的模型。

谁教会它思考的？

上一节我们说，推理模型"自己学会了思考"。但这话说起来轻松——一个本质上在做文字接龙的语言模型，怎么就突然学会"想问题"了？

答案是两个字：强化学习（Reinforcement Learning）。

这里需要先理解一个背景：传统大模型的训练分两步。第一步，"预训练"——喂海量文本，学会说人话。第二步，"微调"——用标注好的问答对，教它怎么回答得更好。

这两步都是在"教"模型。就像给学生看教材、看范文、做例题——都是有标准答案的。

但推理模型的训练加了一个关键的第三步：让模型自己做题，对了就奖励，错了就受罚。没人告诉它"正确的推理过程长什么样"，只告诉它"你的最终答案对不对"。

这就像学游泳。

你可以看一百本游泳教程，看一千个游泳视频（这是预训练和微调）。但你真正学会游泳，是跳进泳池之后——呛几口水、扑腾几下、发现某个姿势能浮起来、某个动作能前进（这是强化学习）。

没人告诉你手臂应该在第几秒抬起、腿应该踢多大角度。你自己试，自己摸索，慢慢找到了感觉。

推理模型的训练过程几乎一样。

推理模型训练三阶段：从"看教材"到"跳进泳池"

以 DeepSeek-R1 的训练为例，来具体看看这个过程。

DeepSeek 团队做了一件大胆的事：他们训练了一个叫 DeepSeek-R1-Zero 的版本——"Zero"意味着零人工推理示例。也就是说，他们完全没有给模型看过"正确的推理过程长什么样"，只用强化学习，只给奖惩信号。

奖励规则极其简单：

答案对了，加分
答案错了，减分
格式规范（用了 <think> 标签），加一点分

就这么简单。没有人告诉模型"你应该先分析条件、再列方程、然后验算"。

结果呢？

模型自己发明了推理策略。它自己学会了拆解问题、自己学会了验算、自己学会了"这条路走不通就换一条"。更令人震惊的是，它还自己发明了一种叫做 "aha moment" 的行为——在推理过程中突然写下"Wait, let me reconsider..."，然后推翻之前的思路，换一个角度重新来。

这不就是我们人类所说的"灵光一现"吗？

insider 视角

DeepSeek-R1 使用的强化学习算法叫 GRPO（Group Relative Policy Optimization，群组相对策略优化）。它的核心思想是：同一道题让模型生成一组答案，然后按正确率排序，用排在前面的来"教"模型。不需要额外训练一个"裁判模型"（critic），省了大量计算资源。这是 DeepSeek 能用相对少的资源训练出强大推理模型的关键技巧之一。

这里有一个深刻的启示。

传统的微调（SFT）是在告诉模型"这是正确的推理过程，照着学"。但这有个问题：你准备的范例再多，也覆盖不了所有情况。模型学到的是"模仿推理的样子"，而不是"推理的能力"。

强化学习不一样。它不教模型"怎么想"，只告诉它"想得对不对"。模型必须自己探索、自己试错，最终内化出一套自己的推理方法。

这就是为什么 DeepSeek-R1 的论文标题叫"Incentivizing Reasoning Capability"——不是"teaching"，而是"incentivizing"。不是教它思考，而是激励它思考。

有意思的是，这个训练过程还揭示了一个反直觉的发现：随着训练的推进，模型的"思考过程"会越来越长。一开始，模型的 <think> 区域只有几十个 token。训练到后期，它的思考过程动辄几千个 token。

模型自己发现了一个规律：想得越久，答对的概率越高。于是它"选择"了更长时间的思考。

没有人教它这一点。它是通过反复试错，自己悟出来的。

没人教它怎么想。奖惩信号就像泳池里的水——呛了几口之后，它自己学会了游泳。

为什么"多想一会儿"就能变强？

到这里，你可能会有一个疑问：好，推理模型会"思考"了。但凭什么多想一会儿，准确率就能从 60% 跳到 90%？

这背后有一个近两年 AI 领域最重要的发现之一，叫做 Test-Time Compute Scaling——推理时计算量扩展。

名字很学术，意思很简单。

过去十年，AI 领域有一条公认的"黄金法则"：想要模型更强，就在训练时投入更多算力。更大的数据集、更多的参数、更长的训练时间——这就是所谓的 Scaling Law（规模定律）。GPT-2 到 GPT-3 到 GPT-4，一路靠的就是这个逻辑。

但 2024 年，一个新的发现打破了这个惯性思维。

研究人员发现：在推理的时候（而不是训练的时候）增加算力，效果提升同样惊人。而且在很多场景下，花同样的钱"让模型多想一会儿"，比"训练一个更大的模型"更划算。

具体来说，有一篇标志性论文（来自 UC Berkeley）证明了：

在中等难度的推理任务上，通过优化推理时的计算分配，一个小模型可以打败参数量是它 14 倍的大模型。

14 倍！你花几个月、几千万美元训练出来的大模型，被一个小模型"多想了几秒钟"就超越了。

这太反直觉了。但如果你回到我们开头的思想实验，其实一点都不反直觉。

一个中等学生，给他充足的时间和草稿纸，做对一道难题的概率，完全可以超过一个学霸在 3 秒钟内蒙出来的结果。

关键不是"谁更聪明"，而是"谁被允许思考"。

那具体来说，"多想一会儿"的算力是怎么花的？主要有两种路径：

路径一：更长的思维链

最直接的方式——让模型生成更多的"思考 token"。o1 模型的一次回答可能生成几万个 token 的思考过程，远超最终输出给用户的几百个 token。

但这里有一个重要的发现：并不是越长越好。2025 年的一项研究（"Towards Thinking-Optimal Scaling"）发现，不同类型的问题存在一个"最优思考长度"。简单问题想太多，反而会把自己绕进去；难问题想太少，又不够。

常见误解

很多人以为推理模型=更慢但更准。实际上，对简单任务使用推理模型，不仅更慢更贵，有时准确率反而会下降。模型可能会"想多了"——把一个简单问题过度分析，然后得出错误结论。这就像考试时一道送分题，你非要用高等数学来解，结果算了半天还算错了。

路径二：多路径搜索

第二种方式更精妙——让模型对同一个问题生成多个不同的推理路径，然后用一个"验证器"（Verifier）挑出最好的那个。

这有点像下棋。一步棋有很多种走法，高手的做法不是只想一种，而是在脑子里模拟好几种走法，评估每种的后果，然后选最优的。

在技术上，这涉及到两种验证器：

验证器类型	工作方式	类比
ORM（Outcome Reward Model）	只看最终答案对不对	只看考试成绩的老师
PRM（Process Reward Model）	评估推理过程的每一步是否合理	看解题过程给分的老师

PRM 通常效果更好，因为它能在推理链的中途就发现错误，避免沿着错误路径继续浪费算力。但训练一个好的 PRM 本身也需要大量数据和算力，这是当前的研究热点之一。

把两种路径结合起来看，推理模型的"智力"提升本质上来自一个简单的逻辑：

两条通往"更强 AI"的路：训练时投资 vs 推理时投资

过去，让 AI 变强只有一条路：训练更大的模型（左边）。现在有了第二条路：让现有模型想得更久（右边）。

这意味着什么？意味着"智力"不再是一个固定值。同一个模型，面对简单问题，可以快速作答；面对难题，可以投入更多算力去"深思熟虑"。

就像一个人，不是随时随地都用同样的脑力处理每件事。你买菜不需要深思，但做投资决策需要。

推理模型证明了一件事：智力可以用时间换。这是 AI 领域过去两年最深刻的认知转变。

什么时候该用，什么时候不该用？

理解了原理之后，来到最实际的问题：作为开发者，什么场景用推理模型，什么场景用普通模型？

先说结论：选模型就像选交通工具。

你去楼下便利店买个水，骑共享单车就够了，没必要开坦克。但你要穿越撒哈拉沙漠，共享单车就不行了。

推理模型就是那辆坦克——强大，但慢，而且贵。

贵到什么程度？推理模型每次请求的成本大约是普通模型的 5-10 倍。因为它生成的 token 数量远多于最终输出——那些"思考过程"虽然用户可能看不到，但每一个 token 都在消耗算力和金钱。

延迟也高得多。普通模型可能 1 秒就返回结果，推理模型可能需要 10-30 秒，复杂问题甚至更久。

所以关键是：什么样的任务值得你付出这个代价？

推理模型的甜区

数学和逻辑推理：竞赛级数学、形式化证明、复杂逻辑题。这是推理模型的"主场"，提升最为显著
代码生成与调试：特别是复杂算法、多文件重构、涉及多个模块交互的编程任务
科学分析：需要多步推导的科学问题、数据分析、实验设计
策略规划：架构设计、方案对比、决策分析——需要权衡多个因素的任务
合同/文档审查：需要严谨逐条分析、不能遗漏细节的场景

普通模型就够的场景

日常对话和内容生成：写邮件、写博客、翻译、摘要——这些不需要"深思"
简单的问答和信息检索：查个事实、解释个概念
实时交互：聊天机器人、客服——用户等不了 30 秒
批量处理：大量文本分类、情感分析——追求吞吐量的场景

实战案例

一个常见的架构模式是"路由器"——用一个轻量模型先判断任务难度，简单任务走普通模型，复杂任务走推理模型。这样既不浪费钱，又不牺牲质量。OpenAI 的 GPT-5.4 thinking 模式本身就内置了这个逻辑——你可以设定"推理努力程度"（reasoning effort），让模型自己决定在这个问题上花多少时间思考。

说一个我自己的使用经验。

前两周我用 Claude Code 重构一个项目的认证模块。第一次用的是标准模型，它很快给出了方案，但在处理 JWT token 刷新和并发请求竞态条件时，逻辑有明显漏洞。

切换到 extended thinking 模式后，你能看到它在"思考区"里自己发现了竞态问题："Wait, 如果两个请求同时发现 token 过期，都去刷新，会导致其中一个拿到的新 token 立刻失效..."。然后它自己设计了一个带锁的刷新机制。

一个模型能自己发现问题、自己解决问题——这在一年前是不可想象的。

但我写日常的 commit message 或者调整 CSS 样式时，用推理模型就是浪费。标准模型一秒搞定的事，不需要"深思熟虑"。

选模型的黄金法则：如果你的任务连人类都需要"想一想"才能做好，那就用推理模型。如果人类能脱口而出，那用普通模型就够了。

未来会怎样？

聊了这么多原理和实践，最后来聊聊推理模型的未来。

2024 年 9 月 o1 发布至今，推理模型已经走过了不到两年的时间。但它带来的范式转变，正在重塑整个 AI 行业的研发方向。

过去十年，大家比的是"谁的模型更大"——参数量从十亿到万亿，训练成本从几十万到几亿美元。这条路越走越窄，因为数据快被用完了，能源成本在飙升，物理极限在逼近。

推理模型打开了一条新路：不需要更大的大脑，只需要更多的思考时间。

MIT 在 2026 年 2 月发表了一项研究，用一个巧妙的方法将推理模型的训练速度提高了一倍——让一个小模型预测大推理模型的输出，大模型只需验证而不需要自己从头推理。这意味着推理模型的训练成本还在快速下降。

与此同时，另一个趋势正在发生：推理能力正在下沉到小模型。

DeepSeek-R1 的论文里有一个被很多人忽略的细节：他们把大模型的推理能力"蒸馏"到了小模型上。一个 7B 参数的蒸馏版本，在数学推理任务上的表现超过了许多 70B 的非推理模型。

这意味着在不远的将来，你的手机上可能就运行着一个带推理能力的小模型——不需要联网，不需要 API 调用，它自己就能在本地"想一想"再回答你的问题。

延伸思考

推理模型还带来一个意想不到的好处——可解释性。因为模型会把思考过程"说出来"，研究人员发现它比传统模型更容易被审计和监控。你能看到它是怎么得出结论的，如果哪一步推理有问题，你可以精确定位。这对金融、医疗、法律等需要"说得清道理"的领域意义重大。

我做两个预测，给自己设个 deadline：

预测一：到 2026 年底，推理能力将不再是"高端模型"的专属。至少有 3 款开源小模型（参数量 < 15B）在标准推理基准上超过 2024 年的 GPT-4。推理将变成大模型的"标配"能力，而不是"付费升级"选项。

预测二：到 2027 年 Q2，"自适应推理深度"将成为主流模型的默认行为。模型不再需要用户手动选择"用不用推理模式"——它会自动判断当前问题的复杂度，决定投入多少算力去思考。就像你的大脑不需要你手动切换"深度思考模式"——遇到难题，它自动切换。

半年后回来看看，我说得对不对。

回到我们开头的思想实验。

3 秒钟做一道难题 vs 30 分钟做一道难题——差别不在于你的大脑硬件。差别在于，你是否被允许思考。

推理模型做的事情，就是给 AI 争取到了"打草稿的权利"。

而这个看似微小的改变，正在重写 AI 的能力上限。