Skip to content

Agent 概念入门

本节介绍 Chatbot、Workflow、Agent、Multi-agent 的核心区别,帮助你建立正确的认知框架。

核心区别

这四类系统的核心区别在于"谁来决策"以及"如何决策"

概念决策者流程工具使用复杂度
Chatbot用户(完全由用户驱动)无,单轮/多轮对话
Workflow开发者(预先编码)固定、确定性有,但调用方式固定
Agent大模型(自主决策)动态、非确定性有,自主决定何时调用
Multi-Agent多个Agent(分布式)涌现、协作/竞争各有工具,协作使用很高

一句话记住:Chatbot靠问,Workflow靠编,Agent靠想,Multi-Agent靠协。

Chatbot

最熟悉的形态,像一个"问答专家"或"闲聊伙伴"。

  • 核心逻辑输入 → 大模型推理 → 输出。每次对话通常是独立的。
  • 能力:理解自然语言、生成回复、多轮对话。
  • 决策权几乎没有。它不会主动做什么,只是被动响应指令。

典型例子

  • 简单的 ChatGPT 对话(你问"法国的首都是哪里?"它答"巴黎")
  • 微信上的各种 AI 助手

局限性

它无法完成复杂任务。比如让它"帮我预订今天下午3点从公司到机场的专车",它要么拒绝,要么只给一个链接,无法真正替你执行。

Workflow

确定性的自动化,像一条"流水线"或"工厂里的机械臂"。

  • 核心逻辑预设流程 + 规则引擎/大模型节点。开发者事先定义好每一步做什么、顺序如何。
  • 能力:执行一系列固定步骤。可以在某个步骤调用大模型做判断,但整个流程的骨架是固定的。
  • 决策权没有。执行顺序和异常处理都是预先写死的。

典型例子

  • 自动邮件回复:收邮件 → 判断投诉 → 分类严重程度 → 生成回复草稿 → 发给主管审核
  • RAG(检索增强生成):用户提问 → 向量检索 → 拼接 Prompt → 调用大模型 → 输出答案

与 Chatbot 的区别

Chatbot 是"一次性"对话,Workflow 是"多步骤"任务流水线。可以把 Chatbot 理解为没有 Workflow 的"单步任务"。

Agent

非确定性的自动化,具有自主决策能力。像一个"聪明的实习生":你告诉它目标,它自己会想"该先做什么?用什么工具?如果失败了怎么办?"。

  • 核心逻辑观察 → 思考 → 行动 → 循环(ReAct 模式)
  • 能力:使用工具、制定计划、进行推理、拥有记忆
  • 决策权。Agent 自己决定下一步做什么、用什么工具、何时终止

典型例子

自动订票:用户说"帮我订下周去北京的机票"。Agent 会:

  1. 思考"需要知道具体日期、预算、偏好" → 反问用户
  2. 得到信息 → 调用机票查询 API
  3. 选出最合适的 → 调用预订 API → 完成

与 Workflow 的关键区别

  • Workflow:路径固定。你告诉它"第一步查机票,第二步选最便宜的,第三步预订"
  • Agent:路径动态。你只告诉它"订机票",它自己决定步骤、工具,甚至可能在查完后发现没票而建议你改期

Multi-Agent

多个 Agent 分工协作,解决复杂问题。像一个"项目团队"或"蚁群"。

  • 核心逻辑多个 Agent 通过某种机制进行交互。每个 Agent 有自己的角色、目标和能力。
  • 能力1+1 > 2。通过分工、协作、竞争甚至辩论,解决单个 Agent 难以处理的问题。
  • 决策权分布式的。每个 Agent 有自己的决策模块,整体行为是涌现出来的。

典型模式

模式说明示例
协作模式一个 Agent 负责任务分解,一个负责执行,一个负责验证软件开发团队(PM Agent、Developer Agent、Tester Agent)
辩论模式两个 Agent 持有相反观点,第三个做裁判事实核查、多方案比较
竞争模式多个 Agent 执行相同任务,投票选出最佳结果代码审查、多视角分析

典型例子

  • AutoGen:创建 UserProxy Agent(代表用户)和 Assistant Agent(AI助手)对话协作解决编程问题
  • 游戏 AI:采集 Agent、战斗 Agent、侦查 Agent 共同为"赢得比赛"服务

与单个 Agent 的区别

单个 Agent 是"全能超人",Multi-Agent 是"专业团队",各司其职通过沟通解决更复杂的问题。

决策框架

选择哪种系统?遵循以下原则(详见第 3 篇:何时使用 Agent):

  1. 能用简单方案就不要复杂化。优先考虑 Chatbot → Workflow → Agent 的顺序
  2. 如果能提前写出完整步骤,用 Workflow
  3. 如果步骤无法预测、需要动态推理,用 Agent
  4. 如果任务太复杂,单个 Agent 难以处理,用 Multi-Agent

一句话总结

如果你能画出一个完整的流程图,就不要用 Agent。如果步骤连开发者都不知道怎么走,才是 Agent 的用武之地。