第8章 Jmanus 懂思考、会规划、一步步动手完成任务

8-1 多Agent设计思路角色分工

多Agent和单Agent核心执行流程

它包括两个流程：

核心流程就是一个主管级别的agent负责将任务进行切割，以及将对应的任务分派给相应的智能体来去执行。最后是由这个主管级别的智能体对每个智能体所产生的结果进行整合，然后回复给用户，这是第一个核心流程。
然后第二个核心流程就是任务的执行是由多个单个的智能体来执行的。而每一个智能体它的执行都有一个自己的执行流程，也就是步骤的规划，步骤的执行，以及每个步骤它的结果的监控以及反馈和评估。最后就是多个步骤执行完成之后得到的最终结果，这是两个核心流程。

一个多智能体的协同框架，首先是有两个全局类：

第一个全局类就是叫做环境类，这个环境类它是储存全局的记忆信息以及参数。
第二个全局类就是动作类或者叫做action类。这个全局类它是对于每一个智能体，它在执行任务都要调用这个动作类。而这个动作类它包含了智能体的调用工具以及调用语言大模型。在这个全局的动作类，它又包含两个子类，一个子类就是思考的子类，第二个就是真正执行动作的子类。

对于智能体来说，它要进行两个步骤的完成任务:一个就是先规划，第二个才是按照规划来去执行的。

因此每一个智能体它要调用这个全局的动作类，都要调用两个子方法，就是思考的方法，或者说叫做规划的方法以及执行的方法，这是两个全局类。

对于多智能体的框架，首先就是要对每一个智能体都要把它们赋予专业的角色。擅长编程工具使用的技术研究员，擅长文件工具，word、excel这些文件工具使用的研究分析师等等。每一个智能体都有它擅长的部分。所以对于这些角色，同样的也是要创建一个角色类。而这个角色类它有两个子类，第一个子类就是角色的配置，叫做RoleS etting类。这个角色的配置子类它是主要作用就是存储每个智能体的角色。第二个子类就是叫做RoleContext类，这个RoleContext类主要就存储智能体在执行动作、执行任务之间过程中的状态信息、步骤信息，以及一些每个步骤的中间结果，都是通过这个RoleContext类来去进行的。

8-2 多Agent设计思路冲突协商

主管智能体会根据每个智能体的角色以及能力去把对应的任务，就是这个任务跟这个角色以及他的能力是相匹配的。这个任务把它分给他，这个就会涉及到一个核心算法，就叫的角色分配算法。

在多智能体的框架里面，除了角色分工之外，另外一个重要的地方就是每个智能体之间他们是如何协调工作的。这里这个协调工作包括两个部分，第一个部分就是智能体之间如何进行信息的交互。之前的A2A这个通信协议。但是这个通信协议并不适用于基于同一个语言大模型的智能体，它是适用于基于不同语言大模型的智能体。那么在基于单个语言大模型的智能体之间，它们是如何通信呢？它们通常是基于一个结构化的通信。例如RPC，web Socket，这些都可以作为智能体之间的结构化通信，这个还是比较简单。关于智能体之间协作的另外一个很重要的方面，就是智能体在进行任务的执行中不可避免会有冲突。那么这里的冲突如何进行调解呢？这就是关于智能体之间协作的第二个部分，就是冲突调解模块。

对于智能体之间的冲突如何进行调解，它又包含有几个内容。

第一个内容就是冲突不会只有一个，可能同时发生几个冲突。因此对于冲突的调解可以是多个冲突并行的来解决，这个就是多议题协商。
第二个就是智能体它的角色的转换。例如智能体A和智能体B它对于执行某个任务的时候，某个地方他们之间发生了冲突。那么主管智能体他会拉一个群，把这两个发生冲突的智能体A和智能体B拉到这个群里面。在这个群里面，智能体A和智能体B他们就会抛弃他们原来的角色。在这个冲突的协调的群里面，他们是担任了一个新的角色。例如辩论的正方或者说辩论的反方这样子，这个就是动态角色的转换。
第三个就是信用的分配。因为解决这个冲突肯定要遵循某个原则。例如智能体A它的信用分比较高，那么主管这个智能体，它就会根据智能体A这个信用分比较高，那么会决定采用智能体A所提出的执行策略。因为有可能智能体A它是一个经验很丰富的老师傅，那么他所提出的方案应该是比较可行可信。

这个冲突调解模块把它抽象为一个模型，叫做冲突调解模型。而在这个冲突调解模型里内部又可以包含几个子模型，例如多议题协商这个模块可以把它抽象为一个子模型，就是多议题协商冲突网络模型，就专门去解决多个冲突议题的一个并行执行。接着就是共识形成模块，在共识形成模块这里会涉及到一个核心算法，就是共识形成算法，也就是WSLL这个算法。

智能体之间的协同合作它包括两个方面:

第一个方面就是智能体之间的结构化通信。
第二个方面就是智能体之间执行任务的时候的冲突调解以及达成共识。

8-3 多Agent设计思路SOP管理机制

第四个重要模块就叫做SOP，中文就是标准流程。

分析一下任务切分之后，它要分给每一个智能体来单独去执行。那么哪一个智能体它要执行？完成这个任务之后，他接着下一步要做什么呢？或者说哪个智能体首先去做第一个需求呢？还是这个智能体是负责最后一个需求呢？还是说这些智能体都是共同并行的去完成这些需求呢？大家各做各的，没有任何的统筹。我们在团队里面都是有一个老大去对全局做一个统筹。哪个队员他在哪个时间或者说哪个时间点他要完成这个任务。然后他完成了这个任务之后，他要有空闲时间，他要去协助另外一个队员去跟着去完成。或者说这个队员他要完成两个任务。而这完成两个任务是有时间差的，他要先完成任务一，然后他要等另外一个队员完成了他自己的任务之后，他就接着这个队员的完成的结果来去继续的进行加工？这都是有一个完整的统筹，这样子这些单个智能体才叫做协同合作。所以我们要有一个标准的流程，这个标准流程就叫做SOP，不然的话你整个计划会乱的。就是要有一个流程，有一个全局的计划。

作为主管级别的智能体，它除了能把复杂的任务进行需求的切割以及进行任务的分发，它还需要制定一个统筹的计划。

这个SOP模块可以把它设置为一个SOP类，在这个SOP类里面有一个很重要的类叫做state类，这个state类就是状态节点。可以看到这张图就是SOP它其实就是一个树状结构的流程图。每个agent它在这个树树状图里面它处于哪一个位置，以及他需要做什么，都有对应的状态和节点。指定这个agent需要做些什么，它的步骤是什么，都是存放在这里指定的state节点里面。关于这个SOP，它的生成是有两个方面去生成：

第一个方面就是预先就由这个统筹的agent，也就是主管级别的这个agent去进行预设置。
另外一种生成方案就是由语言大模型根据每个agent它的完成情况，以及根据需求动态的去调整它下一个节点它应该包含哪些步骤，包含哪些内容，以及由哪一个agent去完成，这个是动态生成。

最后就是总结一下整个多agent协同框架设计的整个思路：

首先它是有两个核心流程。第一个核心流程就是多agent执行的核心流程，包括了意图识别、任务规划以及任务执行，还有就是结果的整合。其中任务执行它是由多个单个agent协同完成的这是第一个核心流程。
第二个核心流程就是每个agent它都有自己的执行流程。这个执行流程就是步骤的规划。步骤的执行以及每个步骤完成之后进行监察，以及把它反馈给agent来进行动态的调整，这个是第二个核心流程。

五个主要模块：

第一个模块就是全局模块，它包含了全局参数信息以及全局的动作类。这个动作类它包含两个共用的方法。
- 第一个共用方法就是思考方法
- 第二个共用方法是执行方法。
- 每个agent在执行任务的时候都要经过这个全局的动作方法，这是第一个模块。
第二个模块是任务的切分。这个模块主要就是由统筹，也就是主管级别的这个agent来负责的。
对用户的需求来进行分割分层，一个个简单的任务，这是第一个方面。
第二个方面就是将这些任务按照角色分配算法去将对应的任务分给和这个任务能够匹配的agent。就是这个agent它的能力以及角色都能够跟这个任务来进行匹配的。
这是第二个模块，这个模块主要就是由统筹的这个agent来负责的。
第三个模块就是agent每个agent他的角色模块。这个模块里面有一个角色类，这个角色类有两个子类:
- 一个子类就是角色的配置类，这个是储存了每个agent他的负责的角色以及他所擅长使用的工具。
- 第二个子类就是每个agent它的状态信息的存储，这是第三个模块。
第四个模块就是每个agent之间的通信以及冲突协调模块。通信主要就是进行结构化的通信。第二个就是冲突协调。在这里这个模块里面它会涉及到几个模型。第一个就是冲突调解模型，而这个冲突调解模这里面又包含内部几个小的模型，或者说叫做子模型。好像它包含了动态角色转换，动态议题协商以及每个agent的信用分配。这些模型中途解决。它除了这些子模型之外，还有就是达成共识的模块。这里它就根据共识形成算法来去达成冲突之后的共识形成
第五个模块就是SOP标准流程模块。在这个标准流程模块里面有一个重要的类叫做state类，也就是状态节点。这个标准流程就是通过一个个的状态节点连接起来的一个树状结构，每一个节点都包含了A准的状态信息，以及他下一步去哪里工作。在这个SOP标准流程的生成，它有两个方案的生成。第一个方案就是预先由这个统筹的A准来预先生成。另外一种生成方式就是通过语言大模型动态的去生成。

8-4 Manus多Agent的技术架构

根据多智能体提出来的骨架如下

多智能体开发框架：

AutoGen：多Agent协调能力能进行人工干预
CrewAi：团队自主协作 Agent角色专业化任务动态委派争议解决
LangChain：大规模流程定制模块化需要手动配置
Manus：规划-执行-验证3层分工协作
京东JoyAgent：本地部署复用历史任务经验工具原子化
蚂蚁集团muAgent 基于知识图谱 LLM+知识图谱增强决策支持

Manus框架的思路：

8-5 Manus是自主决策的Ai Agent

Manus2个AI自循环

Manus 的三大特点

多智能体协同合作

任务拆解与分配：基于两条骨架运行——任务规划器（主管）负责任务拆解生成任务清单；任务执行调度器（项目经理）负责读取清单、分发子任务给对应智能体
协调与汇总：调度器不仅分发任务，还协调智能体间的工作矛盾、争议与合作需求，并对各智能体完成的结果进行汇总

外部工具调用能力（MCP协议）

基于MCP协议：单个智能体执行任务时，不仅依赖大模型的推理思考能力，还能通过MCP协议调用外部工具（本地数据库、浏览器操作、第三方API等）
隔离容器机制：每个智能体调用工具都在独立的隔离容器中进行，确保：
- 数据隔离：避免不同智能体在同一环境下操作造成数据混乱（如智能体A和B同时使用浏览器访问不同网页）
- 安全隔离：防止出错影响用户本地电脑或服务器的重要文件