什么是Agent

从LLM到Agent的进化之路

模型能力· 编排模式· 工具与数据· 应用场景

LLM能做什么

💬

问答

🌐

翻译

📝

总结

💻

生成代码

本质是"一问一答" — LLM接收输入,生成输出,就完成了。它不会主动获取信息,不会操作外部系统,也不会拆解复杂任务自主执行。

LLM vs Agent:直观对比

🤖 LLM

"帮我查下北京明天的天气"

  • 只能基于训练数据回答
  • 无法获取实时信息
  • 可能给出过时或错误的结果
VS

🚀 Agent

"帮我规划周末北京出行,考虑天气和交通"

  • 调用天气API获取实时数据
  • 查询地图规划路线
  • 综合推理,输出完整方案
关键区别:LLM只能"回答",Agent能"行动"。Agent不仅能思考,还能感知环境、使用工具、自主决策。

Agent 一句话定义

Agent = 大模型 + 思考方式 + 外部工具与数据

能够自主感知、决策、行动来完成复杂目标的智能系统
🧠

大脑

模型能力

💭

思维方式

编排模式

🔧

四肢与感官

工具与外部数据

模型是Agent的"大脑"

决定了Agent的理解力、推理力、表达力上限

🎯 理解能力

准确理解用户意图,包括模糊、复杂的指令

🧩 推理能力

逻辑分析、任务拆解、做出判断 — 这是Agent能"自主思考"的关键

✨ 生成能力

输出自然语言、代码、结构化数据(如JSON)等

模型选择的权衡

能力 成本 速度 最佳平衡点

复杂推理任务

使用强模型(如 Claude Opus)— 能力强,成本高

简单分类任务

使用轻量模型(如 Haiku)— 速度快,成本低

实际场景中可能混合使用不同模型 — 复杂决策用强模型,简单操作用轻量模型,平衡效果与成本。

编排模式三层递进

从简单到复杂,逐步构建Agent的"思维方式"

1️⃣

单Agent模式

一个Agent怎么思考 — Think→Act / Reflect / Plan&Execute

2️⃣

多Agent协作模式

多个Agent怎么配合 — 工作流/路由/生成校验/角色扮演/层级/黑板/群聊

3️⃣

框架层

可配置可扩展的编排框架 — LangGraph / Dify / Coze / CrewAI

3.1 Think → Act(ReAct)

最基础的模式:思考 → 行动 → 观察 → 再思考,循环往复直到完成

思考 行动 观察 决定做什么 执行工具 获取结果

类比

像工程师排查bug — 分析原因,试方案,看结果,再调整

适用场景

信息检索、问题诊断、对话助手

特点:简单、灵活、适应性强  |  局限:没有反思能力,犯错可能继续错下去

3.2 Think → Reflect → Act

在ReAct基础上增加"自我反思" — 执行后反思"做得对不对?有没有更好的方式?"

执行 反思 优化 产出结果 调整策略 不满意则重新执行 自我评价/打分

类比

像有code review习惯的工程师 — 写完先自己review,发现问题再改

适用场景

代码生成(写→检查→改)、内容创作、多约束决策

特点:输出质量更高,能自我纠错  |  局限:多一轮反思 = 更多时间和成本

3.3 Plan and Execute(规划-执行)

先制定完整计划,再逐步执行 — 像项目经理先制定WBS,再逐步交付

Planner 规划器 📋 步骤1:收集数据 📋 步骤2:清洗处理 📋 步骤3:分析建模 📋 步骤4:生成报告 Executor 执行器 ⬜ 执行步骤1 ⬜ 执行步骤2 ⬜ 执行步骤3 ⬜ 执行步骤4 ✅ 验证结果 不满意→重规划

两个关键角色

Planner:负责拆解任务、制定步骤
Executor:负责执行每个具体步骤

适用场景

数据处理流水线、多步骤报告生成、项目管理等目标明确的复杂任务

3.4 单Agent模式对比总结

维度Think→ActThink→Reflect→ActPlan & Execute
一句话边想边做边想边做,还会复盘先想后做
思维方式线性循环带自我评价的循环先规划,再逐步执行
适合场景简单探索性任务对质量要求高的任务目标明确的复杂任务
优势简单灵活输出质量高、能自纠全局规划、可追踪
成本中(多一轮反思)中(多一轮规划)
代表产品基础对话助手Claude Code 等Cursor 等
选择建议:任务简单 → Think→Act  |  质量优先 → 加Reflect  |  步骤多且复杂 → Plan & Execute

3.5 工作流模式(DAG)

按照预定义的流程,将任务分配给不同的Agent节点 — 像工厂流水线

数据采集 数据清洗 分析建模 可视化 生成报告 并行分支

两种形态

顺序流水线:A→B→C,每个Agent处理上一个的输出
并行分支:同一输入同时发给多个Agent并行处理

适用场景

内容生产流水线、数据处理管道、审批流程自动化

特点:确定性强、可控、可审计  |  代表:LangGraph、Dify、Coze

3.6 路由/分发模式(Routing)

一个"入口Agent"根据任务内容,动态路由到最合适的专业Agent — 像医院分诊台

用户请求 分诊Agent 技术支持Agent 财务Agent 账户Agent

与工作流的区别

工作流是预定义路径,路由是根据内容动态判断走哪条路

适用场景

智能客服分流、多领域知识问答、任务分类处理

3.7 生成-校验模式(Maker-Checker)

一个Agent生成,另一个审查,不合格则打回重做 — 像开发与Code Review

生成Agent 校验Agent 提交作品 ❌ 不通过,附修改意见 ✅ 通过

与反思模式的区别

反思是自己审自己,Maker-Checker是两个独立Agent配合,审查更客观

适用场景

代码生成+审查、合同起草+合规审查、内容创作+事实核查

3.8 角色扮演模式(Role-based)

按工作角色分工,每个Agent扮演一个专业角色 — 像一个虚拟项目团队

协调者PM Agent 研发Agent 测试Agent 设计Agent 分配任务 分配任务

工作方式

每个Agent有独立的角色定义、专业知识和工具集,通过消息传递协作

代表项目

MetaGPT、ChatDev、CAMEL、CrewAI

3.9 层级委派模式(Hierarchical)

多层级管理链,顶层设定目标,逐级分解和委派 — 像企业组织架构

顶层管理Agent 中层Agent A 中层Agent B 执行Agent A1 执行Agent A2 执行Agent B1 执行Agent B2 结果逐级汇报回顶层

与角色扮演的区别

角色扮演是扁平分工,层级模式有上下级指挥链,支持更大规模的任务分解

适用场景

大规模项目管理、复杂决策系统(战略→战术→执行)

3.10 黑板模式(Blackboard)

多个Agent通过共享"白板"间接协作 — 像研究人员围着白板讨论

共享白板 状态 / 中间成果 📊 数据 📝 分析 💡 洞察 数据分析 领域专家 方法 去中心化、松耦合、各自独立读写

特点

去中心化、松耦合,适合开放性、探索性问题(没有预定义的解题路径)

适用场景

开放式研究课题、复杂诊断、创意发散(头脑风暴)

局限:难以控制收敛,不适合有明确交付要求的任务

3.11 辩论/群聊模式(Debate)

多个Agent在共享对话线程中讨论、辩论,通过交流达成共识 — 像圆桌讨论会

主持人 Manager 共享对话线程 Agent A: 我认为应该…… Agent B: 我不同意,因为…… Agent C: 补充一点…… Agent A: 好的,那我调整…… 达成共识 最终决策

与黑板模式的区别

黑板是异步共享状态(各自读写),群聊是同步对话交流(直接讨论争论)

适用场景

多角度评估决策、方案评审、需要权衡多方利益的决策

3.12 多Agent模式对比总结

维度工作流路由/分发生成-校验角色扮演层级委派黑板辩论/群聊
一句话按流程办事按内容分诊写完审查按角色分工逐级委派围着白板圆桌讨论
协作方式预定义流转动态路由双人循环角色协作层级指挥共享状态同步对话
确定性
可控性
典型场景标准化流程客服分流质量把关团队协作大型项目开放研究多方决策

3.13 框架模式 — 像乐高积木

提供Agent、Tool、Memory、Prompt等基础构建块和编排原语,让使用者自由组合

框架特点
LangChain / LangGraph最流行的开源框架,LangGraph专注有向图编排
Dify低代码/可视化,适合快速搭建Agent应用
Coze(扣子)字节跳动出品,可视化编排,生态丰富
CrewAI专注角色扮演式多Agent协作
AutoGen微软出品,专注多Agent对话协作
Claude Code / Cursor代码领域的Agent产品,内置编排能力
框架不是某一种固定的编排方式,而是提供基础元素和编排原语(顺序、并行、条件分支、循环等),让你像搭积木一样组合出适合自己场景的编排。

3.14 回归第一性原理

11种模式看起来纷繁复杂,但回归第一性原理,所有编排的底层逻辑可以用一个三层认知金字塔来理解。

第一层(最本质):一个公式
任何Agent = 反馈控制循环 + LLM决策
第二层(原子操作):8个积木块
控制流原语 + 交互原语
第三层(具体模式):11种编排方式
前面讲的所有模式

一个公式理解所有Agent

所有Agent系统底层都是同一个东西 — 反馈控制循环(控制论经典模型)

目标 感知 决策 行动 反馈 反馈回感知层,循环往复 LLM驱动
终极公式:任何Agent系统 = N个「感知→决策→行动」的反馈循环 × 循环之间的连接方式
Agent vs 传统程序的本质区别:「决策」这一步由LLM驱动,而非硬编码规则
维度问题变化范围
循环有几个1个Agent还是N个Agent?单循环 → 多循环
循环怎么连接多个循环之间如何协作?串联 / 并联 / 共享状态
循环怎么嵌套循环内部的复杂度?单层循环 → 循环套循环

从图灵机到 Agent

图灵机 1936 冯诺依曼 1945 传统程序 Agent

🖥️ 图灵机四要素

状态有限状态集合,记录当前所处阶段
纸带无限长存储介质,读写数据
读写头感知当前符号 & 写入新符号
转移函数δ(状态, 输入) → (新状态, 输出, 移动)

🤖 Agent 四要素

内部状态对话历史 + 推理中间态
记忆系统短期上下文 + 长期向量存储
感知与行动工具调用 / API / 环境交互
LLM 决策f(状态, 输入) → 概率分布(下一步动作)
关键飞跃:图灵机的转移函数是确定性的(人工编写规则),Agent 的转移函数是概率性的(LLM 从数据中学习)
传统编程 = 人写规则;Agent = 编排一个已经懂规则的系统

8个原子操作(积木块)

控制流原语 — 任务怎么流转

原语含义一句话
顺序A做完再做B流水线
分支根据条件走不同路径岔路口
循环重复执行直到满足条件反复打磨
并行同时做A和B多线程
聚合合并多个来源的结果汇总

交互原语 — Agent之间怎么配合

原语含义一句话
调用调用工具或另一个Agent动手
反馈对结果评估并回传改进信号审查
共享多方读写同一个共享状态共用白板

用原子操作解构11种编排

编排模式分解为原子操作
Think→Act循环(思考→调用→观察→再思考)
Think→Reflect→Act循环 + 反馈(多一步自我评价)
Plan & Execute顺序(先规划)+ 循环(逐步执行)+ 分支(是否重规划)
工作流顺序 + 分支 + 并行 + 聚合
路由/分发分支(根据内容动态路由)+ 调用
生成-校验循环(生成→检查)+ 反馈(打回修改意见)
角色扮演调用(委派给各角色)+ 顺序/并行
层级委派调用(递归委派)+ 聚合(逐级汇报)
黑板模式共享(共享状态)+ 并行(各自独立工作)
辩论/群聊共享(对话线程)+ 循环(多轮讨论)+ 聚合(达成共识)
不需要死记11种模式。记住一个公式(反馈控制循环 + LLM决策),理解8个积木块,就能看懂任何编排方式,也能像搭积木一样组合出最适合的编排

3.15 编排模式全景总结

单Agent(简单→复杂)
Think→Act+ Reflect+ Plan
多Agent(确定性高 ←→ 开放性高)
工作流路由生成校验角色扮演层级黑板群聊
框架层 — 提供积木,自由组合
LangGraph / Dify / Coze / CrewAI / AutoGen

任务简单

→ Think→Act

质量优先

→ 加上Reflect

步骤多且复杂

→ Plan & Execute

光有大脑还不够

LLM能思考,但不能行动 — 不能上网、不能查数据库、也记不住上次聊了什么

类比:大脑(模型能力)决定思考上限,四肢与感官(工具与数据)决定行动边界。Agent = 大脑 + 四肢 + 记忆。
🔧

工具调用 & Function Calling

概念与机制 — 让Agent能"动手"

🔌

MCP & A2A 协议

标准化连接 — 工具即插即用,Agent互联互通

📚

RAG & 记忆

数据接入 + 状态持久化 — 让Agent能"看见"和"记住"

📐

上下文管理 & Skills

有限空间的高效利用 — 让Agent更聪明地管理信息

4.1 工具调用(Tool Use)

Agent可以调用的外部能力 — 模型决定"何时调用什么工具、传什么参数"

🔍

搜索引擎

获取实时信息

代码执行

运行代码、执行计算

🗄️

数据库查询

获取业务数据

🔗

第三方API

发邮件、操作系统等

工作机制:模型决定"何时调用什么工具、传什么参数" → 系统执行工具 → 结果返回给模型 → 模型继续推理

4.2 Function Calling

模型不是直接执行工具,而是输出"我想调什么、传什么参数"的结构化指令

开发者定义 声明可用工具 (JSON Schema) 模型推理 选择工具 并填充参数 系统执行 运行函数 获取结果 模型继续 基于结果 继续推理 循环直到任务完成

关键点

模型不执行代码,只输出结构化的调用意图(函数名+参数)。执行由外部系统完成,结果再返回模型。

为什么重要

这是Agent"动手能力"的技术基础。没有Function Calling,模型只能输出文字建议,无法真正执行操作。

4.3 MCP — 模型上下文协议

AI世界的"USB-C接口" — 一个标准协议,让任何工具即插即用

没有MCP之前

  • 每个工具单独写适配代码
  • M个模型 × N个工具 = M×N种适配
  • 换模型要重写所有集成

有了MCP之后

  • 工具实现一次MCP Server
  • 模型/应用实现一次MCP Client
  • M + N 次适配,即插即用
架构:MCP Host(AI应用)↔ MCP Client ↔ MCP Server(工具/数据源)。Server可以暴露工具(Tools)、资源(Resources)、提示词模板(Prompts)。

4.4 A2A — Agent间互联协议

MCP连接工具,A2A连接Agent — 让不同框架、不同厂商的Agent能协作

🔌

MCP

Agent ↔ 工具

连接外部能力
工具是"被动"的
🤝

A2A

Agent ↔ Agent

连接其他Agent
对方是"主动"的
核心机制:Agent Card(能力名片)发现对方能力 → Task(任务对象)管理协作过程 → 支持流式通信和进度推送。
类比:MCP像"招聘员工"(工具听命于你),A2A像"找合作伙伴"(Agent各有自主权)。

4.5 知识库 / RAG

模型的知识有截止日期,也不了解企业内部信息 — RAG来解决这个问题

用户提问 检索 Retrieve 增强 Augment 生成 Generate 从知识库中检索相关文档 拼接上下文 模型基于文档回答
举例:企业内部文档问答 — 先从知识库检索相关文档,再让模型基于文档回答,确保答案准确且时效。

4.6 记忆(Memory)

让Agent能持续、连贯地工作,而不是每次都"失忆"

💬

短期记忆

当前对话的上下文(对话历史)

类似人的"工作记忆"
对话结束即消失
🧠

长期记忆

跨会话持久化的信息(用户偏好、历史决策等)

类似人的"长期记忆"
跨会话持续存在
为什么重要:有了记忆,Agent能记住你的偏好、了解项目背景、延续之前的工作,成为真正有连续性的助手。

4.7 上下文窗口 — Agent的"工作台"

所有信息必须摆在同一张桌子上 — 桌子大小有限,怎么摆决定了工作效率

系统提示 工具定义 对话历史 & 工具返回 检索文档 留给推理的空间 ↑ 越小越影响质量 ← 上下文窗口总容量(如 128K / 200K tokens)→

📏 硬约束

每个模型有固定上下文窗口。超出部分直接截断丢失。Token数越多,成本越高、速度越慢。

🎯 注意力衰减

"Lost in the Middle" — 模型对开头和结尾关注度高,中间容易"看漏"。上下文越长,推理质量越差。

对Agent的影响:Agent多步推理不断累积上下文 — 工具定义、每轮对话、每次工具返回都在消耗空间。管理上下文,和选对模型一样重要。

4.8 上下文管理策略

不是把所有东西都塞进去,而是在正确的时间加载正确的信息

✂️

压缩与裁剪

旧对话摘要化,只保留最近N轮完整内容

类比:会议纪要代替完整录音
📦

Skills / 按需加载

不一次性加载所有工具定义,用到哪个技能包才加载哪个

类比:手机App — 装了100个,只打开你需要的

智能缓存

Prompt Caching缓存不变的系统提示;RAG按需检索代替预加载

类比:图书馆借书,不用把书都搬回家
Skills 模式(Claude Code、Cursor 等正在使用):将Agent能力拆为独立"技能包",System Prompt只放一句话描述。用户触发时才动态加载完整指令和工具定义。效果:上下文从 50K tokens 降到 5K — 更快、更便宜、推理更准确。

5.1 通用场景

💻

代码助手

Cursor、Claude Code等 — 理解代码、自动修bug、生成新功能

  • 理解整个代码库的上下文
  • 自主读文件、改代码、跑测试
  • 多轮迭代直到问题解决
🎧

智能客服

理解问题 → 查知识库 → 调业务系统 → 解决问题

  • 路由分发到对应专业Agent
  • 结合RAG查询产品文档
  • 调用工单系统完成操作

5.2 代码助手 — 以Cursor为例

用户指令 代码索引检索 上下文组装 模型规划 多文件编辑 终端验证 输出结果

🔍 理解代码库

  • 代码索引 — Embedding + 向量搜索,快速定位相关代码
  • 自动选取 — 将相关文件、函数填入上下文窗口
  • Rules文件 — .cursorrules / CLAUDE.md 提供项目规范与约束

🛠️ 自主执行

  • 读写文件 — 跨文件编辑,运行终端命令、执行测试
  • Diff模式 — 精准修改而非全量重写,减少出错
  • 多步迭代 — 改代码 → 跑测试 → 修复 → 直到通过
本质:Cursor = ReAct循环 + 代码索引(RAG) + 工具调用(读/写/终端) + 上下文管理 — 串联了前面讲过的所有核心概念

5.3 Agent落地经验与避坑

🗑️ 上下文污染

塞太多无关信息 → 模型"注意力分散",质量反而下降

经验:精选上下文 > 堆砌信息

👻 幻觉与虚构

模型会编造不存在的API/函数,写出看似正确的错误代码

经验:要求Agent先读代码再改,永远跑测试验证

🔄 循环陷阱

修A破B → 修B破A → 无限循环,越改越乱

经验:设置最大迭代次数,超限回退让人介入

💰 成本失控

无限制的Agent循环 = 烧钱(Token按量计费)

经验:设Token/轮次上限,用便宜模型做简单判断

护栏设计原则:Human-in-the-loop(关键操作需人确认)· 渐进信任(先小范围试,再放开权限)· 可观测(记录每步决策,出问题能回溯)

5.4 教师智能体

📝 自动出题与组卷

根据知识点、难度、题型要求自动生成试卷

✅ 智能批改与反馈

批改作业/试卷,给出详细的错因分析和改进建议

📚 备课助手

根据课标和教材自动生成教案、课件大纲、教学活动设计

📊 学情分析

汇总学生学习数据,生成学情报告,识别薄弱知识点

核心价值:将教师从重复性工作中解放出来,让教师有更多精力投入到个性化教学和学生沟通中。

5.5 学生智能体

🎯 个性化辅导

根据学生当前水平,自适应讲解、举例、追问,像1对1家教

❓ 苏格拉底式提问

不直接给答案,通过引导性提问帮助学生自主思考

📋 错题分析与巩固

分析错题原因,推荐针对性练习,跟踪掌握情况

📅 学习规划

根据目标和当前水平,制定个性化学习计划和复习安排

核心价值:每个学生都能获得个性化的学习体验,实现"因材施教"的教育理想。

5.6 教育 Agent:构建路径与核心壁垒

通用大模型 教育领域适配 场景化 Agent 数据飞轮

🔧 如何构建

  • 🧩 学科知识图谱:结构化的知识点、考点、能力关联
  • 📐 教学策略库:教学法 + 提问技巧 + 难度梯度编排
  • 👤 学生画像系统:学习行为、薄弱点、偏好的持续建模
  • ✅ 效果评估引擎:对教学效果可量化(掌握率、成绩变化)

🏰 核心壁垒

  • 📊 数据飞轮:教育数据 → 优化模型 → 更好体验 → 更多数据
  • 🏫 场景渗透:与学校/机构深度集成,理解真实教学流程
  • 🔒 信任壁垒:教育场景安全准确性要求极高,先入者建立信任
  • 🎓 领域 Know-how:教学法 × AI 编排 = 不可替代的经验积累
关键洞察:模型能力是"水电煤",所有人都能接入 → 不是壁垒
真正的护城河 = 领域数据 × 教学编排经验 × 场景渗透深度

回顾:Agent的三大核心要素

Agent = 模型(大脑)+ 编排(思维方式)+ 工具与数据(四肢感官)

🧠 模型

理解、推理、生成 — 决定Agent的能力上限

💭 编排

11种模式,8个积木块 — 决定Agent的思考方式

🔧 工具

Tool Use / RAG / Memory — 让Agent能动手和感知

当前局限:幻觉、可控性、成本等
对我们的启发:理解Agent能力边界,在合适的场景中落地应用

Agent 的未来演进

L1 聊天 L2 工具 L3 自主执行← 我们在这里 L4 长期自主 L5 协作智能

🧬 更长的记忆

从无状态对话到跨会话持久记忆;Agent从历史任务中学习,越用越懂你

🖥️ Computer Use

直接看屏幕、点鼠标、操作任意软件;不再需要专门的API集成

🤝 多Agent协作网络

专业Agent自动发现、协商、分工;类似微服务架构的Agent生态

🏗️ 从助手到同事

从"给指令-执行"到"理解目标-自主规划-持续推进";数字同事

趋势:更自主 · 更持久 · 更协作 · 更通用
核心挑战不变:如何确保 Agent 可控、可信、与人类意图对齐

谢谢

Q & A