Episode - ListenHub

Episode - ListenHub

Cover

ListenHub

92

6-13

Anthropic 团队在构建 Claude 的多智能体研究系统时，解决了工程挑战并积累了宝贵经验。该系统通过并行化和智能协调，显著提升了处理复杂、开放式研究任务的效率和性能，但同时也带来了协调、评估和可靠性方面的独特挑战。文章深入探讨了其系统架构、提示工程原则及生产部署中的关键考量。

多智能体系统的优势

研究工作具有开放性和不可预测性，多智能体系统能适应动态和路径依赖的探索过程，无需预先硬编码固定路径。
通过并行操作和独立上下文窗口，实现信息压缩和关注点分离，提高效率，每个子智能体提供独特的探索轨迹。
内部评估显示，多智能体系统（如以 Claude Opus 4 为主智能体，Claude Sonnet 4 为子智能体）在广度优先查询上性能超越单智能体系统 90.2%。
主要通过增加令牌使用量（通常是聊天的 15倍）和并行推理能力来提升性能，Claude 模型是令牌使用效率的倍增器。

研究系统架构

采用主控-工作者模式，主智能体协调并委派任务给并行运行的专业子智能体。
主智能体根据用户查询分析并制定策略，然后生成子智能体同时探索不同方面，子智能体作为智能过滤器收集信息并返回给主智能体。
与传统 RAG（检索增强生成） 的静态检索不同，该架构使用多步骤动态搜索，能适应新发现并分析结果。
完整工作流包括 LeadResearcher 智能体迭代研究、生成专业 Subagents 独立执行搜索、综合结果并由 CitationAgent 添加引用。

提示工程与优化原则

了解智能体行为： 通过在 Console 中模拟观察智能体工作流，快速发现并解决问题，如过度冗长或错误选择工具。
教导协调者委派： 主智能体需为子智能体提供详细任务描述，包括目标、输出格式、工具指导和明确的任务边界，避免重复工作或遗漏。
根据查询复杂度调整投入： 在提示中嵌入扩展规则，如简单事实查询用 1个智能体 3-10次工具调用，复杂研究用 10+个子智能体，以高效分配资源。
工具设计与选择： 明确工具用途和清晰描述至关重要，指导智能体优先选择最合适的工具，避免因工具描述不清导致错误路径。
并行化工具调用： 主智能体并行启动 3-5个子智能体，子智能体并行使用 3+种工具，将复杂查询的研究时间缩短高达 90%。

智能体评估方法

多智能体系统行为具涌现性且非确定性，评估需关注最终结果（是否达到预期目标）而非固定步骤。
建议从小型样本（如约 20个查询）开始快速迭代评估，早期调整效果显著，无需等待大规模测试集。
LLM作为评判者： 大型语言模型可根据事实准确性、引用准确性、完整性、来源质量和工具效率等标准，对自由文本输出进行可扩展的评估，与人类判断高度一致。
人工评估： 捕捉自动化评估遗漏的边缘案例，如幻觉、系统故障或微妙的来源选择偏差（例如偏爱 SEO优化内容农场 而非权威来源）。

生产可靠性与工程挑战

状态保持和错误累积： 智能体长时间运行并保持状态，微小错误可能导致灾难性后果，需要支持从错误点恢复的系统（如重试逻辑和定期检查点）。
调试复杂性： 智能体决策动态且非确定性，需要全生产跟踪和高层次可观察性（监控决策模式和交互结构）来诊断根本原因。
部署协调： 智能体系统高度有状态，部署更新需采用 彩虹部署 等策略，通过逐渐转移流量来避免中断正在运行的智能体。
同步执行瓶颈： 当前主智能体同步执行子智能体，简化协调但造成信息流瓶颈；未来异步执行可增强并行性但增加复杂性。

Outline

Anthropic 团队在构建 Claude 的多智能体研究系统时，解决了工程挑战并积累了宝贵经验。该系统通过并行化和智能协调，显著提升了处理复杂、开放式研究任务的效率和性能，但同时也带来了协调、评估和可靠性方面的独特挑战。文章深入探讨了其系统架构、提示工程原则及生产部署中的关键考量。

多智能体系统的优势

研究工作具有开放性和不可预测性，多智能体系统能适应动态和路径依赖的探索过程，无需预先硬编码固定路径。
通过并行操作和独立上下文窗口，实现信息压缩和关注点分离，提高效率，每个子智能体提供独特的探索轨迹。
内部评估显示，多智能体系统（如以 Claude Opus 4 为主智能体，Claude Sonnet 4 为子智能体）在广度优先查询上性能超越单智能体系统 90.2%。
主要通过增加令牌使用量（通常是聊天的 15倍）和并行推理能力来提升性能，Claude 模型是令牌使用效率的倍增器。

研究系统架构

采用主控-工作者模式，主智能体协调并委派任务给并行运行的专业子智能体。
主智能体根据用户查询分析并制定策略，然后生成子智能体同时探索不同方面，子智能体作为智能过滤器收集信息并返回给主智能体。
与传统 RAG（检索增强生成） 的静态检索不同，该架构使用多步骤动态搜索，能适应新发现并分析结果。
完整工作流包括 LeadResearcher 智能体迭代研究、生成专业 Subagents 独立执行搜索、综合结果并由 CitationAgent 添加引用。

提示工程与优化原则

了解智能体行为： 通过在 Console 中模拟观察智能体工作流，快速发现并解决问题，如过度冗长或错误选择工具。
教导协调者委派： 主智能体需为子智能体提供详细任务描述，包括目标、输出格式、工具指导和明确的任务边界，避免重复工作或遗漏。
根据查询复杂度调整投入： 在提示中嵌入扩展规则，如简单事实查询用 1个智能体 3-10次工具调用，复杂研究用 10+个子智能体，以高效分配资源。
工具设计与选择： 明确工具用途和清晰描述至关重要，指导智能体优先选择最合适的工具，避免因工具描述不清导致错误路径。
并行化工具调用： 主智能体并行启动 3-5个子智能体，子智能体并行使用 3+种工具，将复杂查询的研究时间缩短高达 90%。

智能体评估方法

多智能体系统行为具涌现性且非确定性，评估需关注最终结果（是否达到预期目标）而非固定步骤。
建议从小型样本（如约 20个查询）开始快速迭代评估，早期调整效果显著，无需等待大规模测试集。
LLM作为评判者： 大型语言模型可根据事实准确性、引用准确性、完整性、来源质量和工具效率等标准，对自由文本输出进行可扩展的评估，与人类判断高度一致。
人工评估： 捕捉自动化评估遗漏的边缘案例，如幻觉、系统故障或微妙的来源选择偏差（例如偏爱 SEO优化内容农场 而非权威来源）。

生产可靠性与工程挑战

状态保持和错误累积： 智能体长时间运行并保持状态，微小错误可能导致灾难性后果，需要支持从错误点恢复的系统（如重试逻辑和定期检查点）。
调试复杂性： 智能体决策动态且非确定性，需要全生产跟踪和高层次可观察性（监控决策模式和交互结构）来诊断根本原因。
部署协调： 智能体系统高度有状态，部署更新需采用 彩虹部署 等策略，通过逐渐转移流量来避免中断正在运行的智能体。
同步执行瓶颈： 当前主智能体同步执行子智能体，简化协调但造成信息流瓶颈；未来异步执行可增强并行性但增加复杂性。

Script

原野: 你知道吗，我最近刷到一个Anthropic的官方文章，看得我眼睛都亮了！标题特酷，叫什么‘我们是怎么搭建多智能体研究系统的’。它讲的就是，他们怎么把Claude那个多智能体研究系统，从一个实验室里的‘小作坊’，直接打造成能上生产线‘大工厂’的。你懂的，以前那些AI啊，遇到这种没个准数、得自己摸索着来的研究任务，那叫一个抓瞎，根本使不上劲儿。你说说看，这Claude Research到底是怎么做到的，能在这种‘开放式考题’上，突然就开挂，效率直接飞起来了呢？

晓曼: 哎呀，这事儿可得从一个特别经典的案例说起。你想啊，Anthropic团队之前就让单个Claude模型去干个活儿，就是找出标普500里所有科技公司的董事会成员。结果呢？那家伙就跟个老学究似的，一步一步慢慢搜，最后愣是没搜出来，完全失败！但是啊，后来他们聪明了，搞了个‘组合拳’：让Claude Opus 4当老大，下面再配上好多个Claude Sonnet 4小弟，大家一起并行开工。结果你猜怎么着？同一个任务，准确率直接飙升了90.2%！简直是逆天改命啊！

原野: 哇，90.2%？这数字简直是坐了火箭啊，直接窜上天了！这可不光是速度快了点儿的事儿吧。我感觉这背后肯定有更深层次的原因。你说这多智能体系统，它到底是怎么个玩法，能把AI处理复杂信息的路子彻底给盘活了？

晓曼: 你可以把它想象成一场超大型的寻宝游戏。如果只有一个智能体，那就像一个人背着个大包，自己吭哧吭哧地探险，走一步看一步，慢慢摸索。但多智能体就不一样了，它就像一支训练有素的探险队！每个子智能体都能同时在不同的区域撒网，各自开搜，然后把最要紧的线索汇总给队长。这种并行作战的方式，让研究速度直接飞沙走石，他们后来发现，光是token的使用量，就能解释80%的性能差异了，你说厉害不厉害！

原野: 哈哈哈，‘探险队’模式，这比喻太形象了！听起来跟我们人类社会里那种‘集思广益’的集体智慧有点异曲同工啊。你能再具体说说，它和咱们人类的社会协作，到底有哪些神似的地方吗？

晓曼: 没错，就是那个味儿！你想想，咱们人类社会，不就是因为这种集体智能指数级增长，才突破了单打独斗的极限嘛。多智能体系统也一样啊，每个子智能体都有自己的独立上下文窗口，它们可以同时调用各种工具，消耗自己的token。然后，老大那个主智能体呢，就负责把这些零散的关键信息给压缩、整合起来。就像咱们团队里，每个人各司其职，又能相互配合，最终做出集体决策，简直就是AI界的‘梦之队’！

原野: 哎呀，这么一说，多智能体系统确实是给AI处理复杂任务打开了一扇新大门啊。那Anthropic具体是怎么设计和搭建这个‘梦之队’的呢？它的内部架构到底长啥样？

晓曼: 嗯，说白了，它就是采用了我们常说的‘编排者-工作者’模式。比如说，LeadResearcher这个主智能体，它一接到用户的查询，可不是瞎忙活，而是先在心里默默制定一个详细的研究计划，然后存到自己的‘大脑’里。接着，它就会像个总导演一样，动态地生成好几个Subagent子智能体，让它们各自独立去搜索、去分析。等这些小弟们都干完活儿了，再把结果打包交给主智能体进行综合。最后还有个特别重要的角色，CitationAgent，它专门负责处理引用，确保报告里每一句话都有理有据，不信口开河。

原野: 这种动态多步骤搜索，听起来比传统的RAG方法高级多了。它到底解决了哪些让人挠头的问题啊？

晓曼: 哎，你可算问到点子上了！传统的RAG，那就像是‘一锤子买卖’，它一次性检索一大堆相关文档，然后就直接生成回复，根本没办法根据新发现来调整自己的思路。 Anthropic这套多智能体架构就不一样了，它能在任务进行到一半的时候，动态地发现新的线索，甚至还能重新分配任务给不同的子智能体。而且，它还支持并行调用多种工具，这才是真正的‘活学活用’，能动态适应，给出高质量的回答，简直是降维打击！

原野: 哇，那对于我们这些最终用户来说，这种复杂的幕后架构到底意味着什么呢？我们能感受到哪些不一样的地方？

晓曼: 那可太多了！你想想，以前你可能得等AI吭哧吭哧地顺序搜索半天，现在呢？几分钟之内，你就能看到一份覆盖面更广、维度更多、更全面的答案，而且还附带精准的引用，让你查证起来也特别方便。这种高并行、高可靠的工程，简直就是把后台的脏活累活都干完了，让咱们用户可以心无旁骛地专注于研究本身，简直是懒人福音啊！

原野: 这种架构确实精妙，但要让这些智能体高效协作，并且不出现各种让人哭笑不得的‘幺蛾子’，那提示工程就显得尤为关键了。那么，Anthropic在这方面，有没有什么独门秘籍或者特别的原则啊？

晓曼: 哈哈，你算是说到痛处了。他们早期啊，那些智能体是真的会犯一些搞笑的失误。比如说，你问个特简单的问题，它能给你生成50个子智能体去研究，或者老是去搜那些根本不存在的来源，让人哭笑不得。Anthropic团队后来发现，要想让智能体像我们人一样高效工作，那提示词就得精雕细琢，得像绣花一样。比如说，他们会教智能体‘像你的智能体一样思考’，去模拟它的行为；还会‘教会编排者如何委派’，给每个子智能体明确目标和边界。更绝的是，他们还让Claude 4模型自己去诊断失败，优化工具描述，结果呢？后续任务的完成时间直接减少了40%！简直是‘以彼之道还施彼身’啊。

原野: 听起来就像是在教一个团队如何高效协作一样。不过话说回来，在实际操作中，智能体是不是总能按咱们预想的去执行呢？有没有遇到过那种，嗯，提示设计上的‘坑’？

晓曼: 确实有啊！你别看它们平时聪明，有时候也会犯傻。智能体有时会因为提示给得太宽泛，导致它们重复劳动，或者在选择工具的时候，发生一些让人大跌眼镜的误判。Anthropic他们也是通过不断地小规模测试和观察，一点点摸索出来的。他们会嵌入一些分配规则和工具使用的启发式算法，比如说，对于简单的查询，主智能体就只用少量的工具调用；而对于复杂的、需要深入研究的任务，才允许更多的子智能体去发挥，这样就能防止资源浪费，避免‘大炮打蚊子’的情况发生。

原野: 提示工程的重要性，真是肉眼可见啊。不过，即便有了最好的提示，也需要一个有效的评估体系来验证效果。那么，对于这种行为多变的多智能体系统，Anthropic他们是怎么进行评估的呢？

晓曼: 评估多智能体，那可真像评估一个团队，难啊！你想想，它们可能走不同的路径最终达成目标，所以那种传统‘输入X，得到Z’的评估方式，在这里根本行不通。他们一开始就特别聪明，用了20个非常有代表性的查询，做小样本测试，结果一下子就发现了提示调整带来的巨大效果。后来呢，他们还让LLM自己当评判者，根据准确性、引用质量、覆盖度等多个维度来打分，最后再结合人工评估，去捕捉一些细微的偏差，比如智能体是不是偏爱那些SEO优化过的‘内容农场’，而不是专业的学术PDF，这些小细节LLM可不一定能发现。

原野: 既然LLM都能当评判者了，那是不是意味着人工评估的重要性就没那么大了？LLM评判有哪些局限性，是人工无论如何都替代不了的吗？

晓曼: 哎，你问到点子上了！LLM评判确实扩展性强，能大规模快速评估，但它很难捕捉到系统错误背后那些隐性的、深层次的偏差。Anthropic团队就发现，他们早期的智能体啊，老是喜欢选择那些被SEO优化过的‘内容农场’，而不是权威的学术PDF。这种‘偏好’，LLM自己是很难发现的。最后还是通过人工反馈，他们才在提示中加入了来源质量的启发式规则，这才彻底解决了这个问题。所以说，人工的‘火眼金睛’，在某些关键时刻，还是无可替代的。

原野: 评估确实是确保系统质量的最后一道防线。然而，从原型到生产，这中间还隔着一座大山，那就是工程挑战。接下来，我们来聊聊Anthropic在这方面都克服了哪些惊心动魄的困难。

晓曼: 就像咱们常说的‘最后一公里最长’一样，原型在开发者机器上跑得那叫一个顺溜，但真要做到生产级可靠，那遇到的挑战可就多了去了，好多都是未知数。智能体它是有状态的，长时间运行中，任何一个小错误都可能像滚雪球一样，让它慢慢偏离轨道。所以，他们团队为此设计了好多招儿，比如‘可恢复执行’，就像给系统装了个‘后悔药’，还有‘定期检查点’，以及‘模型自适应逻辑’，能让智能体在工具失败的时候，自己聪明地切换策略，简直是‘打不死的小强’。

原野: 智能体系统中的‘错误累积’听起来就让人脊背发凉啊。你们是怎么在保证灵活性的同时，又能有效应对这种‘雪球效应’的呢？

晓曼: 他们是把模型的适应能力和一些确定性保障结合起来了，两手抓，两手都要硬！比如说，失败的时候它有重试逻辑，状态检查也特别有弹性，还有整条生产链路的追踪系统。这样一来，智能体既能感知到工具故障，自己去调整，又能在关键节点，像咱们玩游戏一样，随时回滚到稳定的存档点，保证不崩盘。

原野: 异步执行被认为是未来提升并行度的方向，但也带来协调和状态一致性的挑战。Anthropic如何看待这种权衡？未来会如何演进？

晓曼: 异步执行啊，那绝对是个大杀器！它能大幅加速信息流，释放出更多的并行处理能力，但确实，它也带来了跨子智能体结果协调和全局状态管理这些让人头疼的问题。Anthropic他们预计，随着模型能力越来越强，工具生态也越来越成熟，这种异步模式会一步步地落地，最终实现更高效的‘效率飞跃’。那可真是AI的下一个大时代啊！

原野: 确实，要把AI的潜能全面释放到生产环境，需要克服重重工程难关。但如今我们已经看到，多智能体系统在研究任务上带来了前所未有的效率飞跃，同时也让我们直面了构建复杂系统的工程挑战。这简直就是一场技术与智慧的‘双向奔赴’！

晓曼: 没错！可以说，Claude多智能体系统以这种‘效率飞跃’的方式，为我们描绘了未来AI的无限可能。同时，它也让我们深刻体会到，从一个初步的原型到真正能投入生产的成熟产品，这中间需要多少精细的工程、多少次的迭代和打磨。这既是技术进步的壮丽篇章，也是AI工程领域，下一次激动人心的征程！