当前位置：首页 > news >正文

MoA：Mixture-of-Agents Enhances Large Language ModelCapabilities混合智能体（Mixture-of-Agents）提升大语言模型能力

news 2026/7/3 13:54:03

一、研究背景与核心问题

随着大语言模型（LLM）数量的激增和能力的不断提升，一个自然产生的问题是：能否利用多个不同LLM的集体智慧和互补优势，创造出比任何单一模型都更强大的系统？以往提升模型性能的主要方式是扩大模型规模或增加训练数据，但这两种方式成本极其高昂。因此，如何以更经济、高效的方式“集成”现有模型，成为一个极具吸引力的研究方向。这篇论文正是针对这一问题，提出了名为混合智能体（Mixture-of-Agents，MoA）的创新框架。

二、核心发现与理论基础

在提出具体方法之前，作者首先揭示了一个关键现象——LLM的协作性（Collaborativeness）：

定义：当一个LLM在生成回答时，如果能够参考其他模型（即使是能力不如自己的模型）生成的输出，其自身的回答质量往往会得到显著提升。
验证：如图1所示，当多个流行模型（如GPT-4、Claude等）被提供了其他模型的回答作为参考后，它们在AlpacaEval基准上的胜率均有明显提高。
意义：这一现象是MoA方法能够生效的基石，表明模型之间存在天然的协同潜力，且这种协同不要求辅助信息必须“高质量”。

三、方法论：混合智能体（MoA）框架

1. 核心思想与架构

MoA框架的核心是构建一个分层迭代的协作系统，灵感来源于混合专家（MoE）模型，但作用在“模型级别”而非“网络层级别”。

层（Layers）：系统由多层组成（如3层）。
智能体（Agents）：每一层包含多个LLM实例（可以重复使用同一个模型，利用其随机性生成不同回答）。
工作流程：
1. 第一层（提议层）：所有智能体独立对用户问题进行回答。
2. 后续层（聚合/精炼层）：下一层的每个智能体在生成回答时，不仅看到原始问题，还会看到上一层所有智能体的回答，并依据特定的“聚合与合成”提示词（见表1），将这些回答整合、批判、精炼，生成一个更优的新回答。
3. 最终输出：取最后一层中某个智能体（或聚合器）的输出作为最终答案。

2. 智能体的两种角色

作者将参与协作的模型分为两类角色，并发现不同模型擅长不同角色：

提议者（Proposers）：擅长生成多样化的、有参考价值的初始回答，为后续聚合提供丰富的素材。例如，WizardLM 8x22B是一个出色的提议者。
聚合器（Aggregators）：擅长从多个回答中提取、综合、批判和提炼，最终形成高质量答案。例如，Qwen1.5-110B-Chat、GPT-4o是优秀的聚合器。
关键发现：一个模型可能同时擅长两种角色（如GPT-4o、Qwen1.5），也可能只擅长一种（如WizardLM主要擅长提议）。

3. 与混合专家（MoE）的类比

MoE是在单个模型内部通过门控网络选择多个专家子网络。
MoA则是在多个独立模型之间通过LLM自身的理解能力（通过提示词）来选择和综合不同模型的输出。MoA不需要修改模型权重，完全基于提示接口运行，因此灵活性高、成本低、易于扩展。

四、主要实验与性能表现

论文在三个权威基准测试上进行了全面评估，取得了SOTA结果：

1. AlpacaEval 2.0（衡量模型与人类偏好对齐度）

MoA（开源模型组合）：LC胜率达到65.1%，显著超越了当时最强的GPT-4 Omni（57.5%），绝对提升7.6%。
MoA w/ GPT-4o（以GPT-4o作为最终聚合器）：胜率高达65.7%。
MoA-Lite（轻量版，仅2层）：胜率达到59.3%，仍超越GPT-4 Omni，且成本效益更高。

2. MT-Bench（多轮对话能力）

MoA w/ GPT-4o 获得9.40分，位列第一；标准MoA获得9.25分，同样领先于所有单一模型。由于该基准已趋饱和，提升幅度较小，但依然保持了领先。

3. FLASK（细粒度技能评估）

MoA在正确性、事实性、洞察力、完整性、鲁棒性等多个维度上显著优于其基础聚合器（Qwen-110B-Chat）和GPT-4 Omni，仅在简洁性上略有不足（输出稍显冗长）。

五、机制分析与关键洞察

论文通过大量消融实验，深入剖析了MoA为何有效：

MoA ≠ 简单排序或投票：作者比较了MoA与“LLM排序器”（即让聚合器从所有提议回答中选出一个最佳者）。结果显示，MoA远优于排序器，证明聚合器并非简单选取，而是执行了复杂的信息融合与再创造。
聚合器倾向于借鉴最佳回答：通过计算聚合器最终回答与各提议者回答的相似度（BLEU等），发现最终回答与GPT-4评估得分高的提议回答有更高的相似度，表明聚合器能有效识别并吸收优质信息。
多样性与数量至关重要：
- 数量：随着每层提议者数量（n）的增加，最终性能单调提升。
- 多样性：在相同数量下，使用多个不同模型作为提议者（多提议者）的效果，远好于让同一个模型生成多次回答（单提议者）。这证明模型间的差异性是协作收益的关键来源。
模型角色专业化：不同模型在提议和聚合方面能力差异显著（见表4），选择正确的模型担任正确角色对系统性能影响巨大。

六、成本与效益分析

论文还进行了详细的预算和延迟分析：

成本-性能帕累托前沿：MoA（尤其是MoA-Lite）在成本与性能的权衡上达到了最优平衡。MoA-Lite在达到与GPT-4o相当成本的同时，性能更高；其性能比GPT-4 Turbo高约4%，成本却仅为后者的一半不到（超过2倍成本效益）。
延迟/计算量：使用tflops作为延迟代理指标，MoA同样展现出良好的计算效率，位于帕累托前沿。

七、研究贡献与局限性

主要贡献

新框架：提出了MoA，一种无需微调、即插即用、能显著提升多LLM协作性能的通用框架。
新发现：揭示了并系统验证了LLM的“协作性”这一重要现象。
新SOTA：在不使用私有模型的情况下，仅用开源模型组合就登顶多个主流榜单，超越了当时最强的闭源模型GPT-4 Omni。

局限性

首令牌延迟（TTFT）较高：因为系统必须等待所有前置层计算完毕才能生成第一个输出令牌。缓解方案是减少层数或探索分块聚合。

论文提出了一种名为混合智能体（MoA）的高效集成框架，通过分层次地让多个LLM相互参考和精炼回答，显著提升了生成质量，以远低于顶级闭源模型的成本，实现了对它们的超越，并为未来利用模型多样性提升AI能力开辟了新思路。这里是自己的论文阅读记录，感兴趣的话可以参考一下，如果需要阅读原文的话可以看这里，如下所示：

摘要

近年来，大语言模型（LLMs）的进步展示了其在自然语言理解和生成任务上的强大能力。随着LLM数量的不断增长，如何利用多个LLM的集体专业知识是一个令人兴奋的开放方向。为此，我们提出了一种新方法，通过混合智能体（Mixture-of-Agents，MoA）方法论来利用多个LLM的集体优势。在我们的方法中，我们构建了一个分层的MoA架构，其中每一层包含多个LLM智能体。每个智能体在生成其响应时，会将前一层所有智能体的输出作为辅助信息。MoA模型在AlpacaEval 2.0、MT-Bench和FLASK基准测试中取得了最先进的性能，超越了GPT-4 Omni。例如，仅使用开源LLM的MoA模型在AlpacaEval 2.0排行榜上以显著差距领先，取得了65.1%的得分，而GPT-4 Omni为57.5%。

1 引言

近年来，大语言模型（LLMs）（Zhang等人，2022a；Chowdhery等人，2022；Touvron等人，2023a；Team等人，2023；Brown等人，2020；OpenAI，2023）显著推进了自然语言理解和生成领域。这些模型在海量数据上进行预训练，随后与人类偏好对齐，以生成有用且连贯的输出（Ouyang等人，2022）。然而，尽管LLMs种类繁多且成就斐然，它们仍然面临模型规模和训练数据方面的固有局限。进一步扩展这些模型的规模成本极高，通常需要在数万亿个令牌上进行广泛的重新训练。

与此同时，不同的LLM拥有独特的优势，并在各种任务方面有所专长。例如，一些模型擅长复杂的指令遵循（Xu等人，2023a），而另一些模型可能更适合代码生成（Roziere等人，2023；Guo等人，2024）。不同LLM之间这种技能集的多样性提出了一个有趣的问题：我们能否利用多个LLM的集体专业知识来创建一个更强大、更稳健的模型？

我们对这个问题的回答是肯定的。我们识别出一个固有现象，称之为LLM的协作性（collaborativeness）——即当一个LLM在生成响应时，如果能够参考其他模型的输出，即使这些其他模型自身能力较弱，该LLM也倾向于生成更好的响应。图1展示了6个流行LLM在AlpacaEval 2.0基准测试（Dubois等人，2024）上的LC胜率。

图2：混合智能体（Mixture-of-Agents）结构示意图。此示例展示了4个MoA层，每层有3个智能体。这里的智能体可以共享相同的模型。

当这些模型被提供了由其他模型独立生成的答案时，它们的LC胜率显著提高。这表明协作现象在LLM中普遍存在。值得注意的是，即使其他模型提供的辅助响应质量低于单个LLM能够独立生成的质量，这种改进仍然会发生。

基于这一发现，本文提出了一种混合智能体（Mixture-of-Agents，MoA）方法论，利用多个LLM来迭代地提升生成质量。MoA的结构如图2所示。初始时，第一层的LLM，表示为智能体 A1,1,…,A1,n，针对给定的提示独立生成响应。然后，这些响应被呈现给下一层的智能体 A2,1,…,A2,n（这些智能体可能复用第一层的模型）以进行进一步的精炼。这个迭代精炼过程持续多个周期，直到获得更稳健和全面的响应。

图1：当提供来自其他模型的响应时，AlpacaEval 2.0的LC胜率有所提高。

为确保模型间的有效协作并提高整体响应质量，为每个MoA层精心选择LLM至关重要。此选择过程基于两个主要标准：(a)性能指标：第 i 层模型的平均胜率在决定其是否适合纳入第 i+1 层时起着重要作用。因此，基于模型已证明的性能指标进行选择，可确保更高质量的输出。(b)多样性考量：模型输出的多样性同样至关重要。如我们将在第3.3节中所示，由异构模型生成的响应比由同一模型生成的响应贡献要大得多。通过利用这些标准——性能和多样性——MoA旨在减轻单个模型的缺陷，并通过协作合成提高整体响应质量。

我们使用AlpacaEval 2.0、MT-Bench（Zheng等人，2023）、FLASK（Ye等人，2023）基准测试对响应质量进行了跨多个维度的全面评估。结果表明，我们的方法带来了显著的改进，在AlpacaEval 2.0上取得了新的SOTA胜率65.8%，而之前的最佳成绩是GPT-4 Omni的57.5%。

本工作的贡献总结如下：(1)新颖框架：我们提出了一个混合智能体框架，旨在利用多个LLM的优势，从而提高其推理和语言生成能力。(2)语言模型协作性的发现：我们强调了LLM之间固有的协作性，即当模型能够访问其他模型的输出时（即使这些输出质量较低），它们倾向于生成更高质量的响应。(3)最先进的LLM性能：我们使用多个高竞争力的基准测试（如AlpacaEval 2.0、MT-Bench和FLASK）进行了广泛的实验；我们的MoA框架在这些基准测试上取得了最先进的性能。

2 混合智能体（Mixture-of-Agents）方法论

在本节中，我们介绍所提出的利用多个模型实现性能提升的方法论。我们首先论证LLM具有协作性，因此能够基于其他模型的输出来改进其响应。接着，我们介绍混合智能体方法论并讨论其设计意义。

2.1 LLM的协作性

我们首先展示LLM的协作性，特别是它们在能够参考其他模型的输出时生成更高质量响应的能力。正如我们在引言和图1中所示，当今许多可用的LLM都展现出这种协作能力。

从多个LLM的协作中获取最大收益的一个重要途径，是刻画不同模型在协作的各个方面擅长什么。在协作过程中，我们可以将LLM归类为两种不同的角色：

提议者（Proposers）擅长生成有用的参考响应以供其他模型使用。虽然一个好的提议者自身生成的响应可能得分不高，但它应提供更多的上下文和不同的视角，当被聚合器使用时，最终有助于产生更好的响应。

聚合器（Aggregators）是擅长将其他模型的响应合成为一个高质量输出的模型。一个有效的聚合器即使在整合质量低于其自身输出的信息时，也应能维持或提升输出质量。

第3.3节通过实验验证了聚合器和提议者的角色。具体来说，我们表明许多LLM同时具备作为聚合器和提议者的能力，而某些模型则在特定角色上表现出专门化的熟练度。GPT-4o、Qwen1.5、LLaMA-3成为在多方面辅助和聚合任务中都有效的通用模型。相比之下，WizardLM作为提议者模型表现出色，但在聚合其他模型的响应时难以保持其有效性。

鉴于聚合器可以通过借鉴其他模型的输出来生成更高质量的响应，我们提议通过引入更多的聚合器来进一步增强这种协作潜力。一个直观的想法是复制此过程，使用多个聚合器——首先使用几个聚合器来聚合出更好的答案，然后重新聚合这些聚合后的答案。通过在过程中整合更多聚合器，我们可以迭代地合成和精炼响应，利用多个模型的优势来产生更优的结果。这引出了我们提出的混合智能体（Mixture-of-Agents）的设计。

2.2 混合智能体（Mixture-of-Agents）

表 1：用于整合其他模型响应的“聚合与合成”提示。

您已获得一组来自各种开源模型针对最新用户查询的响应。您的任务是将这些响应合成为一个单一、高质量的响应。至关重要的是，要批判性地评估这些响应中提供的信息，认识到其中一些可能是有偏见的或不正确的。您的响应不应简单地复制给出的答案，而应针对指令提供精炼、准确和全面的答复。确保您的响应结构良好、连贯，并符合最高的准确性和可靠性标准。

来自模型的响应： 1. [来自 Ai,1 的模型响应] 2. [来自 Ai,2 的模型响应] ... n. [来自 Ai,n 的模型响应]

2.3 与混合专家（Mixture-of-Experts）的类比

混合专家（Mixture-of-Experts，MoE）（Shazeer等人，2017）是机器学习中一项著名且成熟的技术，其中多个专家网络专注于不同的技能集。MoE方法因其能够利用多样化的模型能力来解决复杂问题，在各种应用中取得了显著成功。我们的MoA方法从这种方法论中汲取了灵感。

典型的MoE设计由一系列称为MoE层的层堆叠而成。每层包含一组 n 个专家网络以及一个门控网络，并包含用于改善梯度流的残差连接。形式上，对于第 i 层，此设计可以表示如下：

从高层次角度看，我们提出的MoA框架通过在模型级别而非激活级别上操作，将MoE概念扩展到模型层面。具体来说，我们的MoA方法利用LLM，并且完全通过提示接口操作，无需修改内部激活或权重。这意味着，不同于MoE中在单个模型内使用专门的子网络，我们在不同层中利用多个完整的LLM。请注意，在我们的方法中，我们使用LLM来整合门控网络和专家网络的角色，因为LLM的内在能力使其能够通过解释提示和生成连贯输出来有效地规范化输入，而无需外部协调机制。

此外，由于此方法仅依赖于现成模型固有的提示能力：(1) 它消除了与微调相关的计算开销；(2) 它提供了灵活性和可扩展性：我们的方法可以应用于最新的LLM，无论其大小或架构如何。

3 评估

本节对我们提出的MoA进行全面评估。我们的研究结果表明：

我们在AlpacaEval 2.0、MT-Bench和FLASK基准测试上取得了显著改进。值得注意的是，仅使用开源模型，我们的方法在AlpacaEval 2.0和FLASK上就超越了GPT-4o。
我们进行了广泛的实验，以更好地理解MoA的内部机制。
通过详细的预算分析，MoA的几种实现可以在性能上与GPT-4 Turbo相当，同时成本效益高出2倍。

表2：AlpacaEval 2.0和MT-Bench的结果。对于AlpacaEval 2.0，MoA和MoA-Lite分别对应于具有6个提议者、3层结构和2层结构的配置。MoA w/ GPT-4o 对应于在MoA中使用GPT-4o作为最终聚合器。我们的实验运行了三次，并报告了平均分数和标准差。† 表示我们对AlpacaEval结果的复现。我们自行运行了所有MT-Bench分数以获得基于轮次的分数。

(a) AlpacaEval 2.0

模型	LC胜率	原始胜率
MoA w/ GPT-4o	65.7±0.7%	78.7±0.2%
MoA	65.1±0.6%	59.8±0.3%
MoA-Lite	59.3±0.2%	57.0±0.7%
GPT-4 Omni (05/13)	57.5%	51.3%
GPT-4 Turbo (04/09)	55.0%	46.1%
WizardLM 8x22B	51.3%	62.3%
GPT-4 Preview (11/06)	50.0%	50.0%
Qwen1.5 110B Chat	43.9%	33.8%
Qwen1.5 72B Chat	36.6%	26.5%
GPT-4 (03/14)	35.3%	22.1%
Llama 3 70B Instruct	34.4%	33.2%
Mixtral 8x22B v0.1	30.9%	22.2%

(b) MT-Bench

模型	平均分	第一轮	第二轮
MoA w/ GPT-4o	9.40±0.06	9.49	9.31
GPT-4 Turbo (04/09)	9.31	9.35	9.28
MoA	9.25±0.10	9.44	9.07
GPT-4 Preview (11/06)	9.20	9.38	9.03
GPT-4 Omni (05/13)	9.19	9.31	9.07
MoA-Lite	9.18±0.09	9.38	8.99
Qwen1.5 110B Chat	8.96	9.23	8.63
Llama 3 70B Instruct	8.94	9.2	8.68
Mixtral 8x22B v0.1	8.78	9.11	8.44
WizardLM 8x22B	8.78	8.96	8.61
Qwen1.5 72B Chat	8.44	8.55	8.34
GPT-4 (06/13)	8.84	9.08	8.61

3.1 设置

基准测试我们主要在AlpacaEval 2.0（Dubois等人，2024）上评估模型，这是一个用于评估LLM与人类偏好对齐度的领先基准。它包含805个代表实际用例的指令。每个模型的响应直接与GPT-4（gpt-4-1106-preview）的响应进行比较，由基于GPT-4的评估器决定偏好被评估模型响应的可能性。为确保公平性，评估采用长度控制（LC）胜率，有效消除了长度偏差。

此外，我们还在MT-Bench（Zheng等人，2023）和FLASK（Ye等人，2023）上进行了评估。MT-Bench使用GPT-4对模型的答案进行评分。而FLASK则提供了更细粒度的评估，包含12个特定技能的分数。

模型在我们的研究中，我们仅使用开源模型构建了默认的MoA以实现具有竞争力的性能。包含的模型有：Qwen1.5-110B-Chat（Bai等人，2023），Qwen1.5-72B-Chat，WizardLM-8x22B（Xu等人，2023a），LLaMA-3-70B-Instruct（Touvron等人，2023b），Mixtral-8x22B-v0.1（Jiang等人，2024），dbrx-instruct（The Mosaic Research Team，2024）。我们构建了3个MoA层，并在每个MoA层中使用相同的模型集。我们使用Qwen1.5-110B-Chat作为最后一层的聚合器。我们还开发了一个名为MoA w/ GPT-4o的变体，它通过使用GPT-4o作为最终MoA层的聚合器来优先保证高质量输出。另一个变体MoA-Lite则强调成本效益。它使用与提议者相同的模型集，但仅包含2个MoA层，并使用Qwen1.5-72B-Chat作为聚合器。这使得它比GPT-4o更具成本效益，同时在AlpacaEval 2.0上的质量提升了1.8%。我们确保严格遵守本研究中使用的所有模型的许可条款。对于开源模型，所有推理均通过Together Inference Endpoint运行。

3.2 基准测试结果

在本小节中，我们展示了在三个标准基准测试上的评估结果：AlpacaEval 2.0、MT-Bench和FLASK。选择这些基准测试是为了全面评估我们方法的性能，并与最先进的LLM进行比较。

AlpacaEval 2.0我们将我们的方法与领先模型（如GPT-4和其他最先进的开源模型）进行了比较。详细结果见表2a，我们的MoA方法在AlpacaEval 2.0排行榜上取得了顶尖位置，相比之前的顶级模型GPT-4o实现了显著的8.2%绝对改进。此外，特别值得注意的是，我们的模型仅使用开源模型就超越了GPT-4o，实现了从57.5%（GPT-4o）到65.1%（MoA）的7.6%绝对改进。我们的MoA-Lite设置使用更少的层，更具成本效益。即使采用这种更轻量级的方法，我们仍然超越了最佳模型1.8%，从57.5%（GPT-4o）提升至59.3%（MoA-Lite）。这进一步突显了我们的方法在利用开源模型能力并适应不同计算预算方面的有效性，以充分发挥其潜力。

MT-Bench尽管在MT-Bench上相对于单个模型的改进相对有限，但考虑到现有模型在此基准测试上已经表现异常出色（单个模型即可获得超过9分（满分10分）的成绩），这是可以理解的。尽管改进幅度不大，我们的方法仍然在排行榜上占据了首位。这表明，即使在已经高度优化的基准测试上，我们的方法也能进一步突破界限，保持领先地位。

FLASKFLASK提供了对模型的细粒度评估。在这些指标中，MoA在几个关键方面表现出色。具体来说，与聚合器Qwen-110B-Chat的单一模型得分相比，我们的方法在鲁棒性、正确性、效率、事实性、常识、洞察力、完整性方面显示了显著改进。此外，MoA在正确性、事实性、洞察力、完整性和元认知方面也优于GPT-4 Omni。MoA表现不佳的一个指标是简洁性；模型产生的输出略显冗长。

图3：FLASK结果，使用6提议者MoA设置，Qwen1.5-110B-Chat作为聚合器。

在正确性、事实性、洞察力、完整性和元认知方面优于GPT-4 Omni。MoA表现不佳的一个指标是简洁性；模型产生的输出略显冗长。

3.3 混合智能体（Mixture-of-Agents）为何有效？

在本小节中，我们进行了一些实验，以便更好地理解混合智能体的内部机制。我们将关键见解总结如下。

混合智能体显著优于LLM排序器（ranker）。首先，我们将混合智能体与基于LLM的排序器进行比较，后者使用聚合器模型从提议者生成的答案中选择一个，而不是生成新的输出。结果如图4所示，我们可以观察到MoA方法显著优于LLM排序器基线。MoA优于排序方法这一事实表明，聚合器不仅仅是简单地从提议者生成的答案中选择一个，而是可能对所有提议的生成进行了复杂的聚合。

MoA倾向于整合最佳的提议答案。我们还通过BLEU（Papineni等人，2002）等相似度分数（反映n-gram重叠）比较了聚合器的响应与提议者的响应。在每个样本中，给定 n 个由提议者生成的答案，我们计算 nn 个相似度分数与由基于GPT-4的评估器确定的 n 个偏好分数之间的Spearman等级相关系数。图4中的结果确实证实了胜率与BLEU分数之间存在正相关。我们还在附录A中提供了使用Levenshtein相似度（RapidFuzz，2023）或TF-IDF而非BLEU分数的结果，这两种文本相似度的替代方法也产生了与偏好分数正相关的结果。

图4：(a) 在6模型混合智能体设置中，使用不同聚合器在AlpacaEval 2.0上的LC胜率。所有曲线使用相同的6个提议者智能体；它们仅在最终聚合器的选择上有所不同。LLM排序器使用Qwen1.5-110B-Chat模型和附录表5中的提示格式。GPT-4o模型仅用于聚合输出以进行评估，不作为提议者参与下一层。(b) BLEU分数（使用3-gram、4-gram和5-gram指标计算）与提议输出胜率之间的Spearman相关性。

表3：提议者模型数量对AlpacaEval 2.0的影响。我们将 nn 表示为MoA层中的智能体数量或单提议者设置中的提议输出数量。我们在此表的所有设置中使用Qwen1.5-110B-Chat作为聚合器，并使用2个MoA层。

设置	多提议者	单提议者
n = 6	61.3%	56.7%
n = 3	58.0%	56.1%
n = 2	58.8%	54.5%
n = 1	47.8%	47.8%

表4：不同模型作为提议者与聚合器的影响。评估不同聚合器时，所有六个模型均作为提议者；评估提议者时，Qwen1.5-110B-Chat作为聚合器。此表使用2个MoA层。

模型	作为聚合器	作为提议者
Qwen1.5-110B-Chat	61.3%	56.7%
Qwen1.5-72B-Chat	59.3%	53.3%
LLaMA-3-70b-Instruct	45.0%	60.6%
WizardLM 8x22B	52.9%	63.8%
Mixtral-8x22B-Instruct	48.4%	54.8%
dbrx-instruct	41.5%	55.1%

模型多样性和提议者数量的影响。我们通过改变每层提议者数量 n 来分析提议数量如何影响最终输出质量。结果见表3，我们发现分数随 n 单调增加，反映了拥有更多辅助信息的益处。此外，我们还量化了使用多样化LLM集作为提议者的影响。对于每个 n，我们比较了两种设置：“单提议者”（single-proposer），即由同一个LLM以温度0.7生成 n 个响应；以及“多提议者”（multiple-proposer），即每个响应由不同的LLM生成。总体而言，使用多个不同的LLM始终能产生更好的结果。这两个结果都表明，在每个MoA层中拥有更多样化的LLM智能体可以提升性能。进一步扩展MoA的宽度是未来研究的一个有前景的方向。

模型在混合智能体生态系统中的专业化。我们还进行了实验以确定哪些模型在特定角色上表现卓越。具体来说，表4显示GPT-4o、Qwen、LLaMA-3成为在辅助和聚合任务中都有效的通用模型。相比之下，WizardLM作为提议者模型表现出色，但在聚合其他模型的响应时难以保持其有效性。

3.4 预算和令牌分析

为了理解预算、令牌使用量和LC胜率之间的关系，我们进行了预算和令牌分析。图5a和图5b展示了这些关系。

图5：(a) 性能与成本的权衡。(b) 性能与每秒浮点运算次数（tflops）的权衡，我们将其用作延迟的代理指标。请注意，我们计算的是各层中提议者最大tflops数的总和（因为多个提议者可以并行运行）。我们的图示展示了一个帕累托前沿，我们可以选择一个模型，在达到特定性能水平的同时，成本最低。我们展示了混合智能体方法位于此帕累托前沿上，而GPT-4 Turbo和GPT-4o则不是成本最优的，与相同LC胜率的MoA方法相比更为昂贵。单提议者：在每个MoA层中使用同一模型生成多个响应；多提议者：在每个MoA层中使用不同的模型。GPT-4的实际tflops未知，因此我们使用社区传闻的8x220B架构规模。

成本效益在图5a中，我们绘制了AlpacaEval 2.0基准测试中每个实例的平均推理成本与LC胜率的关系。成本基于API提供商网站上的定价信息计算。这有助于识别在不过度增加费用的情况下实现高性能的成本效益模型。图表揭示了一个帕累托前沿，其中某些模型在成本和性能之间达到了最佳平衡。更靠近此前沿的模型更受欢迎，因为它们通过以较低成本提供高LC胜率而提供了更好的货币价值。具体来说，如果我们优先考虑质量，MoA是最好的配置。然而，如果我们希望在质量和成本之间取得良好平衡，MoA-Lite可以匹配GPT-4o的成本，同时达到更高的质量水平。值得注意的是，它的性能比GPT-4 Turbo高出约4%，同时成本效益高出两倍多。

Tflops消耗图5b描绘了LC胜率与tflops数量之间的关系。这里我们使用tflops数量作为延迟的代理指标，因为延迟可能因推理系统而异。此分析对于理解不同模型如何在维持或改进性能水平的同时管理其预算至关重要。与成本效益分析类似，这里也可以观察到帕累托前沿。位于此前沿的模型有效地利用其计算资源来最大化其LC胜率。

4 相关工作

4.1 LLM推理

为了提高LLM的生成质量，近期研究在通过提示工程优化LLM以适应各种下游任务方面取得了重大进展。链式思维（Chain of Thought，CoT）（Wei等人，2022；Kojima等人，2022）提示技术代表了一种线性问题解决方法，其中每一步都建立在前一步的基础上。Fu等人（2022）将CoT应用于多步推理任务。为了实现CoT提示的自动化，Auto-CoT（Zhang等人，2022b）通过采样多样化的问题并生成推理链来构建演示。Active-Prompt（Diao等人，2023）专注于为特定任务的标注选择最不确定的问题。PS Prompt（Wang等人，2023）将任务分解为子任务。思维树（Tree-of-Thought，ToT）（Yao等人，2023a）通过考虑多条推理路径和自我评估选择来扩展推理过程。有效的思维图（Graph-of-Thought）（Yao等人，2023b）将思维构建为图。自然程序提示（Natural Program prompting）（Ling等人，2023）被提出来更好地解决演绎推理任务。重读提示（re-reading prompt）（Xu等人，2023b）则重新审视输入提示中嵌入的问题信息。

4.2 模型集成

利用多个模型优势的一个直接解决方案是重新排序来自不同模型的输出。例如，Jiang等人（2023）引入了PAIRRANKER，它对候选输出进行成对比较以选择最佳输出，并在自建的指令数据集上显示了改进。为了解决多LLM推理带来的大量计算成本，其他研究探索了训练一个路由器，用于为给定输入从一组固定的LLM中预测性能最佳的模型（Wang等人，2024a；Shnitzer等人，2024；Lu等人，2023）。此外，FrugalGPT（Chen等人，2023b）提出通过以级联方式使用不同模型来降低使用LLM的成本。为了更好地利用多个模型的响应，Jiang等人（2023）训练了GENFUSER，这是一个被训练用于生成改进响应的模型，以利用多个候选者的优势。Huang等人（2024）提出通过平均不同模型的输出概率分布来融合它们的输出。

另一条研究路线是多智能体协作。几项研究探索使用多个大语言模型作为智能体，通过交互式地共同讨论和推理问题。Du等人（2023）建立了一种智能体间对称讨论的机制。大约在同一时间，MAD（Liang等人，2023）引入了一种非对称机制设计，具有不同的角色，即辩论者和评判者。其他类似工作包括（Chan等人，2023）。此外，ReConcile（Chen等人，2023a）是一种涉及加权投票的非对称讨论的例子。为了更深入地理解讨论，Zhang等人（2023）旨在从社会心理学视角解释这种协作机制。Wang等人（2024b）系统地比较了多智能体方法，发现一个带有强大提示（包括详细演示）的单个智能体可以达到与多智能体方法相当的响应质量。

5 结论

本文介绍了一种混合智能体方法，旨在通过多阶段的迭代协作来利用多个LLM的能力。我们的方法利用了混合智能体家族中智能体的集体优势，并能显著提高每个单独模型的输出质量。在AlpacaEval 2.0、MT-Bench和FLASK上进行的实证评估表明，响应质量得到了显著提升，我们的方法实现了高达65%的LC胜率。这些发现验证了我们的假设，即整合来自不同模型的多种视角可以比仅依赖单一模型产生更优越的性能。此外，我们还提供了改进MoA设计的见解；对MoA架构的系统优化是未来工作的一个有趣方向。

局限性。我们提出的方法需要迭代聚合模型响应，这意味着模型必须等到最后一个MoA层才能决定第一个令牌。这可能导致较高的首令牌时间（Time to First Token，TTFT），从而对用户体验产生负面影响。为了缓解这个问题，我们可以限制MoA层的数量，因为第一次响应聚合对生成质量的提升最为显著。未来的工作可以探索分块聚合（chunk-wise aggregation）而非一次性聚合整个响应，这可以在保持响应质量的同时减少TTFT。

更广泛的影响。本研究具有提升LLM驱动的聊天助手效能的潜力，从而使AI更易于使用。此外，由于中间输出以自然语言表达，MoA提高了模型的可解释性。这种增强的可解释性有助于更好地与人类推理对齐。

查看全文

http://www.gsyq.cn/news/1627683.html