推理时计算革命：多智能体协同如何突破AI推理天花板

2026年5月，一系列重磅研究的密集发布，让“测试时计算扩展”（Test-time Compute Scaling）从一个学术概念，迅速跃升为决定大模型竞争格局的核心战场。OpenAI的o1已经证明了“让模型在推理时停下来思考”的巨大价值，而最新的研究正在将这一思路推向更深处：不再是简单的链式推理，而是多智能体协同、探索驱动的优化、以及生成式奖励模型的引入。

这不只是一场技术迭代，更是一次范式革命。

一、从“记忆”到“思考”：推理时扩展的本质

理解推理时计算扩展的价值，首先要理解传统大模型的局限性。

长期以来，大语言模型的工作方式可以被类比为“超级图书馆管理员”：它存储了海量的知识，能够根据用户的提问快速检索并输出答案。这种模式的优势在于速度快、成本低，但问题同样明显——它缺乏真正的推理能力。面对需要多步推导、假设验证、错误回溯的复杂问题时，模型往往只能基于“直觉”给出答案，容易陷入幻觉和逻辑谬误。

测试时计算扩展的核心思路，是将部分计算任务从训练阶段转移到推理阶段。具体而言，当模型面对复杂问题时，它不再直接输出答案，而是生成显式的推理路径，通过自我问答、路径规划、错误回溯来验证逻辑。这个过程类似于人类的“慢思考”——系统性地分析问题、尝试不同解法、纠正错误、最终得出可靠结论。

卡内基梅隆大学的研究明确指出，这种从“快思考”到“慢思考”的范式转换，本质上是将模型的“记忆能力”升级为“思考能力”。模型不再是“被动的知识存储器”，而是“主动的任务求解器”。

二、TMAS：多智能体协同的推理新范式

在推理时计算扩展的道路上，多智能体协同是一个极具前景的方向。2026年5月11日发表于arXiv的论文《TMAS: Scaling Test-Time Compute via Multi-Agent Synergy》提出了一个创新框架，将推理过程组织为多个专业化智能体的协作。

2.1 现有方法的局限

传统的测试时计算方法面临一个根本性矛盾：推理时方法受益于从相对平滑的概率分布中进行多样化采样，而基于强化学习的后训练本质上会锐化这些分布。这导致了一个两难困境——推理时需要保持探索的多样性，而后训练却在强化正确答案的同时压制了探索空间。

现有方法要么无法有效协调并行推理轨迹，要么依赖有噪声的历史信息而没有明确决定应该保留和重用什么，这限制了它们在探索和利用之间取得平衡的能力。

2.2 TMAS的核心架构

TMAS的解决方案是将推理过程组织为协作式多智能体系统。其核心创新包括：

层级记忆机制：TMAS引入了两层记忆结构——经验银行（Experience Bank）和指南银行（Guideline Bank）。经验银行重用低层次的可靠中间结论和局部反馈，而指南银行记录先前探索过的高层策略，用于引导后续推理远离冗余的推理模式。

混合奖励强化学习方案：针对TMAS设计的混合奖励方案，联合保持基础推理能力、增强经验利用、并鼓励探索超越先前尝试的解决策略。这解决了探索-利用平衡的核心问题。

实验结果令人振奋：在具有挑战性的推理基准测试中，TMAS实现了比现有测试时计算基线更强的迭代扩展能力。混合奖励训练进一步提高了迭代扩展的有效性和稳定性。

三、EDO：探索驱动的推理优化

同一天，另一项重要研究《Exploration-Driven Optimization for Test-Time Large Language Model Reasoning》提出了探索驱动优化（EDO）方法，进一步推动了推理时计算扩展的边界。

3.1 核心问题

该研究指出，虽然推理时方法在复杂推理任务上取得了显著进展，但推理-训练矛盾的问题依然存在：推理时的方法受益于多样化采样，而基于强化学习的后训练却会锐化分布。

EDO的核心创新是将探索性目标扩展到迭代后训练中，并将其整合到标准强化学习目标中，鼓励在采样解决方案时保持更大的多样性，同时促进更有效的推理时计算利用。

3.2 技术方案

EDO被整合到迭代直接偏好优化（iDPO）和组相对策略优化（GRPO）中，产生了两个变体：ED-iDPO和ED-GRPO。实验表明，这两个变体都表现出更大的解决方案多样性，特别是在与自洽性等推理时计算技术结合使用时。

关键数据：在三个分布内推理基准测试中，EDO比最强基线提升了1.0-1.3%，在五个分布外任务上额外获得了1.5%的平均提升。除了准确性，EDO还保持了模型熵并稳定了强化学习训练动态，有效防止了过度优化导致的崩溃。

四、DeepSeek SPCT：生成式奖励模型的推理时扩展

在商业研究领域，DeepSeek与清华大学合作提出的SPCT方法同样引人注目。这项研究首次提出通过在线强化学习优化原则和批判生成，实现推理时扩展。

4.1 为什么需要新的奖励模型

现有的奖励模型（RM）在通用领域表现出局限性，特别是在面对复杂、多样化任务时。核心挑战有两个方面：通用RM需要跨领域的高质量奖励，既要灵活性也要准确性；现有RM在推理时扩展性差，无法通过增加计算资源显著提升性能。

4.2 SPCT的三层架构

生成式奖励模型：采用点式生成奖励模型，通过生成文本形式的奖励（如critiques）而非单一标量值，支持灵活输入（单响应、多响应）和推理时扩展。

在线强化学习优化的SPCT：通过两阶段过程训练GRM（生成式奖励模型）：

拒绝式微调：冷启动阶段，通过采样和拒绝策略生成初始数据
基于规则的在线RL：使用规则化奖励函数优化原则和批判的生成

推理时扩展技术：通过多次采样生成多样化的原则和批判，投票聚合最终奖励，扩展奖励空间。同时训练辅助模型过滤低质量输出，确保推理效率。

五、实测验证：推理时扩展的真实效果

理论框架需要实验数据的支撑。综合多项研究的实验结果，我们可以清晰地看到推理时计算扩展带来的能力跃升。

5.1 复杂推理任务的突破

在数学推理领域，配备推理时计算扩展的模型在AIME等高难度基准测试中取得了突破性进展。OpenAI o1的实验表明，通过让模型在推理时“停下来思考”，其数学能力从上一代模型的约40%提升到了超过80%。

更值得关注的是，这种提升并非来自模型规模的扩大，而是来自推理策略的优化。这意味着，即使是小规模的模型，如果配备了高效的推理时计算机制，也可能在特定任务上超越超大规模模型。

5.2 跨领域泛化能力

EDO的实验结果显示，在分布外任务上，推理时计算扩展同样能够带来稳定提升。五个分布外任务平均获得了1.5%的额外提升，表明这种技术具有良好的泛化能力，而非仅仅对特定基准测试的过拟合。

5.3 效率与效果的平衡

TMAS的实验表明，通过层级记忆机制，模型可以在保持推理质量的同时显著提升效率。经验银行避免了重复计算，指南银行引导推理走向更有前景的方向，整体效率提升可达数倍。

六、产业影响：从技术突破到商业落地

推理时计算扩展的价值不仅体现在学术研究上，更在于其对产业格局的深远影响。

6.1 重新定义模型竞争维度

过去，大模型的竞争主要聚焦于三个维度：参数规模、训练数据量、算力投入。推理时计算扩展引入了一个全新的竞争维度——推理策略的智能程度。这意味着，即使没有最强大的算力资源，通过更聪明的推理机制，小模型也可以在特定场景下与大模型竞争。

这种变化对整个AI产业格局具有深远影响。中小型AI企业看到了通过算法创新弯道超车的可能，而大厂则需要同时在多个维度保持领先，竞争压力骤然增大。

6.2 企业级应用的成本重构

对于企业用户而言，推理时计算扩展带来了成本结构的重构。传统的模式是：训练阶段一次性投入大量算力，推理阶段相对低成本。而新模式则将部分算力消耗从训练转移到推理阶段。

这意味着，企业需要重新评估“模型选择”的成本-效益分析。一个参数规模较小但推理策略更智能的模型，可能比一个超大规模模型更具商业价值，特别是在需要复杂推理能力的场景中。

6.3 新一代AI产品的基础设施

从更长远的视角看，推理时计算扩展将成为下一代AI产品的基础设施。想象一个能够系统性分析复杂商业问题、进行多步财务规划、执行需要数百个子任务的软件项目开发的AI助手——这些场景对推理能力的要求远超当前模型的极限。

推理时计算扩展正是解决这一挑战的关键路径。它让模型能够在推理过程中动态分配算力，对简单问题快速响应，对复杂问题深入思考，实现真正的“智能弹性”。

七、挑战与局限：并非银弹

尽管推理时计算扩展展现出巨大潜力，但我们也需要清醒地认识到其局限性。

7.1 推理长度偏见

2026年5月的最新研究揭示了一个令人担忧的现象：更长的推理轨迹与增加的位置偏见之间存在正相关。在13个具有推理能力的模型配置中，12个表现出推理长度与位置偏见分数之间的正相关，数值从0.11到0.41不等。

这意味着，当模型“思考”更长时间时，它可能更容易受到与内容无关的因素（如答案位置）的影响，而非做出更理性的判断。如何设计有效的去偏策略，是推理时计算扩展需要解决的重要问题。

7.2 创造力限制

另一项研究在CreativityBench基准上评估发现，即使是最先进的模型，在需要创意工具使用的任务上也表现出明显局限性。虽然模型通常能够为创意任务选择合理的物体，但它们在识别正确部件、功能和潜在物理机制方面仍然失败。

这表明，推理时计算扩展主要提升的是“系统性思考”能力，而非“创造性跳跃”能力。对于需要突破性创新的任务，当前的方法仍有局限。

7.3 算力成本的双刃剑

推理时计算的核心思想是用更多推理阶段算力换取更好的结果，但这也意味着推理成本的增加。在大规模部署场景中，如何平衡推理质量和成本效益，仍需要工程层面的持续优化。

八、未来展望：走向通用推理智能

推理时计算扩展的突破，让我们得以窥见AI推理能力的未来轮廓。

从短期看，2026年的重点将是将这些新技术整合到生产级系统中。TMAS、EDO、SPCT等框架的工程化落地，将决定推理时计算扩展能否真正从实验室走向千家万户。

从中期看，多智能体协同推理将成为主流范式。未来的AI系统可能不再是一个单一的“全能模型”，而是由多个专业化智能体组成的“推理团队”，各司其职、协同工作、高效解决复杂问题。

从长期看，推理时计算扩展指向的是一个更宏大的目标——通用推理智能。如果能够将人类的“系统性思考”能力完整地迁移到AI系统中，那么AGI的实现或许不再遥远。

当然，这条道路仍然漫长。推理长度偏见、创造力局限、算力成本——每一个挑战都需要持续的研究和工程努力来解决。但可以确定的是，推理时计算扩展已经证明了自己是一条可行且有价值的路径。

结语

当大模型的参数规模增长开始触及物理极限，当“暴力堆算力”的模式显现出边际效益递减，整个行业开始意识到：AI的下一场革命，可能不在于模型变得更大，而在于模型变得“更聪明”。

推理时计算扩展正是这一趋势的缩影。它不追求更大的参数规模，而是探索更智能的推理策略；不依赖更多的训练数据，而是释放推理阶段的计算潜力；不满足于“快速回答”，而是追求“深度思考”。

这场静悄悄的革命，正在重新定义AI的能力边界。当模型学会“停下来思考”，当多智能体协同解决复杂问题，当推理过程本身成为提升智能的关键——我们正在见证AI从“超级图书馆”向“通用问题解决者”的蜕变。

而这，或许才是人工智能真正的未来。

延伸阅读

论文原文：TMAS (arXiv:2605.10344)
论文原文：EDO (arXiv:2605.09853)
DeepSeek SPCT: Inference-Time Scaling for Generalist Reward Modeling

相关术语

测试时计算扩展（Test-time Compute Scaling） ：在推理阶段动态分配计算资源以提升模型推理能力的技术范式
多智能体协同（Multi-Agent Synergy） ：多个专业化AI智能体协作完成复杂推理任务的方法
链式推理（Chain-of-Thought） ：让模型生成显式推理步骤而非直接输出答案的技术
探索-利用平衡（Exploration-Exploitation Tradeoff） ：在推理过程中平衡尝试新路径与利用已知有效策略的挑战