什么是Agent

一、从LLM到Agent

LLM能做什么

💬

问答

🌐

翻译

📝

总结

💻

生成代码

本质是"一问一答" — LLM接收输入，生成输出，就完成了。它不会主动获取信息，不会操作外部系统，也不会拆解复杂任务自主执行。

一、从LLM到Agent

LLM vs Agent：直观对比

🤖 LLM

"帮我查下北京明天的天气"

只能基于训练数据回答
无法获取实时信息
可能给出过时或错误的结果

🚀 Agent

"帮我规划周末北京出行，考虑天气和交通"

调用天气API获取实时数据
查询地图规划路线
综合推理，输出完整方案

关键区别：LLM只能"回答"，Agent能"行动"。Agent不仅能思考，还能感知环境、使用工具、自主决策。

一、从LLM到Agent

Agent 一句话定义

Agent = 大模型 + 思考方式 + 外部工具与数据

能够自主感知、决策、行动来完成复杂目标的智能系统

🧠

大脑

模型能力

💭

思维方式

编排模式

🔧

四肢与感官

工具与外部数据

二、大脑 — 模型能力

模型是Agent的"大脑"

决定了Agent的理解力、推理力、表达力上限

🎯 理解能力

准确理解用户意图，包括模糊、复杂的指令

🧩 推理能力

逻辑分析、任务拆解、做出判断 — 这是Agent能"自主思考"的关键

✨ 生成能力

输出自然语言、代码、结构化数据（如JSON）等

二、大脑 — 模型能力

模型选择的权衡

复杂推理任务

使用强模型（如 Claude Opus）— 能力强，成本高

简单分类任务

使用轻量模型（如 Haiku）— 速度快，成本低

实际场景中可能混合使用不同模型 — 复杂决策用强模型，简单操作用轻量模型，平衡效果与成本。

三、思维方式 — 编排模式

编排模式三层递进

从简单到复杂，逐步构建Agent的"思维方式"

1️⃣

单Agent模式

一个Agent怎么思考 — Think→Act / Reflect / Plan&Execute

2️⃣

多Agent协作模式

多个Agent怎么配合 — 工作流/路由/生成校验/角色扮演/层级/黑板/群聊

3️⃣

框架层

可配置可扩展的编排框架 — LangGraph / Dify / Coze / CrewAI

单Agent模式

3.1 Think → Act（ReAct）

最基础的模式：思考 → 行动 → 观察 → 再思考，循环往复直到完成

类比

像工程师排查bug — 分析原因，试方案，看结果，再调整

适用场景

信息检索、问题诊断、对话助手

特点：简单、灵活、适应性强  |  局限：没有反思能力，犯错可能继续错下去

单Agent模式

3.2 Think → Reflect → Act

在ReAct基础上增加"自我反思" — 执行后反思"做得对不对？有没有更好的方式？"

类比

像有code review习惯的工程师 — 写完先自己review，发现问题再改

适用场景

代码生成（写→检查→改）、内容创作、多约束决策

特点：输出质量更高，能自我纠错  |  局限：多一轮反思 = 更多时间和成本

单Agent模式

3.3 Plan and Execute（规划-执行）

先制定完整计划，再逐步执行 — 像项目经理先制定WBS，再逐步交付

两个关键角色

Planner：负责拆解任务、制定步骤
Executor：负责执行每个具体步骤

适用场景

数据处理流水线、多步骤报告生成、项目管理等目标明确的复杂任务

单Agent模式

3.4 单Agent模式对比总结

维度	Think→Act	Think→Reflect→Act	Plan & Execute
一句话	边想边做	边想边做，还会复盘	先想后做
思维方式	线性循环	带自我评价的循环	先规划，再逐步执行
适合场景	简单探索性任务	对质量要求高的任务	目标明确的复杂任务
优势	简单灵活	输出质量高、能自纠	全局规划、可追踪
成本	低	中（多一轮反思）	中（多一轮规划）
代表产品	基础对话助手	Claude Code 等	Cursor 等

选择建议：任务简单 → Think→Act  |  质量优先 → 加Reflect  |  步骤多且复杂 → Plan & Execute

多Agent协作模式

3.5 工作流模式（DAG）

按照预定义的流程，将任务分配给不同的Agent节点 — 像工厂流水线

两种形态

顺序流水线：A→B→C，每个Agent处理上一个的输出
并行分支：同一输入同时发给多个Agent并行处理

适用场景

内容生产流水线、数据处理管道、审批流程自动化

特点：确定性强、可控、可审计  |  代表：LangGraph、Dify、Coze

多Agent协作模式

3.6 路由/分发模式（Routing）

一个"入口Agent"根据任务内容，动态路由到最合适的专业Agent — 像医院分诊台

与工作流的区别

工作流是预定义路径，路由是根据内容动态判断走哪条路

适用场景

智能客服分流、多领域知识问答、任务分类处理

多Agent协作模式

3.7 生成-校验模式（Maker-Checker）

一个Agent生成，另一个审查，不合格则打回重做 — 像开发与Code Review

与反思模式的区别

反思是自己审自己，Maker-Checker是两个独立Agent配合，审查更客观

适用场景

代码生成+审查、合同起草+合规审查、内容创作+事实核查

多Agent协作模式

3.8 角色扮演模式（Role-based）

按工作角色分工，每个Agent扮演一个专业角色 — 像一个虚拟项目团队

工作方式

每个Agent有独立的角色定义、专业知识和工具集，通过消息传递协作

代表项目

MetaGPT、ChatDev、CAMEL、CrewAI

多Agent协作模式

3.9 层级委派模式（Hierarchical）

多层级管理链，顶层设定目标，逐级分解和委派 — 像企业组织架构

与角色扮演的区别

角色扮演是扁平分工，层级模式有上下级指挥链，支持更大规模的任务分解

适用场景

大规模项目管理、复杂决策系统（战略→战术→执行）

多Agent协作模式

3.10 黑板模式（Blackboard）

多个Agent通过共享"白板"间接协作 — 像研究人员围着白板讨论

特点

去中心化、松耦合，适合开放性、探索性问题（没有预定义的解题路径）

适用场景

开放式研究课题、复杂诊断、创意发散（头脑风暴）

局限：难以控制收敛，不适合有明确交付要求的任务

多Agent协作模式

3.11 辩论/群聊模式（Debate）

多个Agent在共享对话线程中讨论、辩论，通过交流达成共识 — 像圆桌讨论会

与黑板模式的区别

黑板是异步共享状态（各自读写），群聊是同步对话交流（直接讨论争论）

适用场景

多角度评估决策、方案评审、需要权衡多方利益的决策

多Agent协作模式

3.12 多Agent模式对比总结

维度	工作流	路由/分发	生成-校验	角色扮演	层级委派	黑板	辩论/群聊
一句话	按流程办事	按内容分诊	写完审查	按角色分工	逐级委派	围着白板	圆桌讨论
协作方式	预定义流转	动态路由	双人循环	角色协作	层级指挥	共享状态	同步对话
确定性	高	中	高	中	中	低	低
可控性	强	强	强	中	中	弱	中
典型场景	标准化流程	客服分流	质量把关	团队协作	大型项目	开放研究	多方决策

框架层

3.13 框架模式 — 像乐高积木

提供Agent、Tool、Memory、Prompt等基础构建块和编排原语，让使用者自由组合

框架	特点
LangChain / LangGraph	最流行的开源框架，LangGraph专注有向图编排
Dify	低代码/可视化，适合快速搭建Agent应用
Coze（扣子）	字节跳动出品，可视化编排，生态丰富
CrewAI	专注角色扮演式多Agent协作
AutoGen	微软出品，专注多Agent对话协作
Claude Code / Cursor	代码领域的Agent产品，内置编排能力

框架不是某一种固定的编排方式，而是提供基础元素和编排原语（顺序、并行、条件分支、循环等），让你像搭积木一样组合出适合自己场景的编排。

第一性原理

3.14 回归第一性原理

11种模式看起来纷繁复杂，但回归第一性原理，所有编排的底层逻辑可以用一个三层认知金字塔来理解。

第一层（最本质）：一个公式
任何Agent = 反馈控制循环 + LLM决策

第二层（原子操作）：8个积木块
控制流原语 + 交互原语

第三层（具体模式）：11种编排方式
前面讲的所有模式

第一性原理 · 第一层

一个公式理解所有Agent

所有Agent系统底层都是同一个东西 — 反馈控制循环（控制论经典模型）

终极公式：任何Agent系统 = N个「感知→决策→行动」的反馈循环 × 循环之间的连接方式
Agent vs 传统程序的本质区别：「决策」这一步由LLM驱动，而非硬编码规则

维度	问题	变化范围
循环有几个	1个Agent还是N个Agent？	单循环 → 多循环
循环怎么连接	多个循环之间如何协作？	串联 / 并联 / 共享状态
循环怎么嵌套	循环内部的复杂度？	单层循环 → 循环套循环

第一性原理 · 溯源

从图灵机到 Agent

图灵机 1936→ 冯诺依曼 1945→ 传统程序→ Agent

🖥️ 图灵机四要素

状态	有限状态集合，记录当前所处阶段
纸带	无限长存储介质，读写数据
读写头	感知当前符号 & 写入新符号
转移函数	δ(状态, 输入) → (新状态, 输出, 移动)

🤖 Agent 四要素

内部状态	对话历史 + 推理中间态
记忆系统	短期上下文 + 长期向量存储
感知与行动	工具调用 / API / 环境交互
LLM 决策	f(状态, 输入) → 概率分布(下一步动作)

关键飞跃：图灵机的转移函数是确定性的（人工编写规则），Agent 的转移函数是概率性的（LLM 从数据中学习）

传统编程 = 人写规则；Agent = 编排一个已经懂规则的系统

第一性原理 · 第二层

8个原子操作（积木块）

控制流原语 — 任务怎么流转

原语	含义	一句话
顺序	A做完再做B	流水线
分支	根据条件走不同路径	岔路口
循环	重复执行直到满足条件	反复打磨
并行	同时做A和B	多线程
聚合	合并多个来源的结果	汇总

交互原语 — Agent之间怎么配合

原语	含义	一句话
调用	调用工具或另一个Agent	动手
反馈	对结果评估并回传改进信号	审查
共享	多方读写同一个共享状态	共用白板

第一性原理 · 第三层

用原子操作解构11种编排

编排模式	分解为原子操作
Think→Act	循环（思考→调用→观察→再思考）
Think→Reflect→Act	循环 + 反馈（多一步自我评价）
Plan & Execute	顺序（先规划）+ 循环（逐步执行）+ 分支（是否重规划）
工作流	顺序 + 分支 + 并行 + 聚合
路由/分发	分支（根据内容动态路由）+ 调用
生成-校验	循环（生成→检查）+ 反馈（打回修改意见）
角色扮演	调用（委派给各角色）+ 顺序/并行
层级委派	调用（递归委派）+ 聚合（逐级汇报）
黑板模式	共享（共享状态）+ 并行（各自独立工作）
辩论/群聊	共享（对话线程）+ 循环（多轮讨论）+ 聚合（达成共识）

不需要死记11种模式。记住一个公式（反馈控制循环 + LLM决策），理解8个积木块，就能看懂任何编排方式，也能像搭积木一样组合出最适合的编排。

编排模式

3.15 编排模式全景总结

单Agent（简单→复杂）

Think→Act→+ Reflect→+ Plan

↓

多Agent（确定性高 ←→ 开放性高）

工作流→路由→生成校验→角色扮演→层级→黑板→群聊

↓

框架层 — 提供积木，自由组合

LangGraph / Dify / Coze / CrewAI / AutoGen

任务简单

→ Think→Act

质量优先

→ 加上Reflect

步骤多且复杂

→ Plan & Execute

四、四肢与感官 — 工具与数据

光有大脑还不够

LLM能思考，但不能行动 — 不能上网、不能查数据库、也记不住上次聊了什么

类比：大脑（模型能力）决定思考上限，四肢与感官（工具与数据）决定行动边界。Agent = 大脑 + 四肢 + 记忆。

🔧

工具调用 & Function Calling

概念与机制 — 让Agent能"动手"

🔌

MCP & A2A 协议

标准化连接 — 工具即插即用，Agent互联互通

📚

RAG & 记忆

数据接入 + 状态持久化 — 让Agent能"看见"和"记住"

📐

上下文管理 & Skills

有限空间的高效利用 — 让Agent更聪明地管理信息

四、四肢与感官

4.1 工具调用（Tool Use）

Agent可以调用的外部能力 — 模型决定"何时调用什么工具、传什么参数"

🔍

搜索引擎

获取实时信息

⚡

代码执行

运行代码、执行计算

🗄️

数据库查询

获取业务数据

🔗

第三方API

发邮件、操作系统等

工作机制：模型决定"何时调用什么工具、传什么参数" → 系统执行工具 → 结果返回给模型 → 模型继续推理

四、四肢与感官

4.2 Function Calling

模型不是直接执行工具，而是输出"我想调什么、传什么参数"的结构化指令

关键点

模型不执行代码，只输出结构化的调用意图（函数名+参数）。执行由外部系统完成，结果再返回模型。

为什么重要

这是Agent"动手能力"的技术基础。没有Function Calling，模型只能输出文字建议，无法真正执行操作。

四、四肢与感官

4.3 MCP — 模型上下文协议

AI世界的"USB-C接口" — 一个标准协议，让任何工具即插即用

没有MCP之前

每个工具单独写适配代码
M个模型 × N个工具 = M×N种适配
换模型要重写所有集成

→

有了MCP之后

工具实现一次MCP Server
模型/应用实现一次MCP Client
M + N 次适配，即插即用

架构：MCP Host（AI应用）↔ MCP Client ↔ MCP Server（工具/数据源）。Server可以暴露工具（Tools）、资源（Resources）、提示词模板（Prompts）。

四、四肢与感官

4.4 A2A — Agent间互联协议

MCP连接工具，A2A连接Agent — 让不同框架、不同厂商的Agent能协作

🔌

MCP

Agent ↔ 工具

连接外部能力
工具是"被动"的

🤝

A2A

Agent ↔ Agent

连接其他Agent
对方是"主动"的

核心机制：Agent Card（能力名片）发现对方能力 → Task（任务对象）管理协作过程 → 支持流式通信和进度推送。

类比：MCP像"招聘员工"（工具听命于你），A2A像"找合作伙伴"（Agent各有自主权）。

四、四肢与感官

4.5 知识库 / RAG

模型的知识有截止日期，也不了解企业内部信息 — RAG来解决这个问题

举例：企业内部文档问答 — 先从知识库检索相关文档，再让模型基于文档回答，确保答案准确且时效。

四、四肢与感官

4.6 记忆（Memory）

让Agent能持续、连贯地工作，而不是每次都"失忆"

💬

短期记忆

当前对话的上下文（对话历史）

类似人的"工作记忆"
对话结束即消失

🧠

长期记忆

跨会话持久化的信息（用户偏好、历史决策等）

类似人的"长期记忆"
跨会话持续存在

为什么重要：有了记忆，Agent能记住你的偏好、了解项目背景、延续之前的工作，成为真正有连续性的助手。

四、四肢与感官

4.7 上下文窗口 — Agent的"工作台"

所有信息必须摆在同一张桌子上 — 桌子大小有限，怎么摆决定了工作效率

📏 硬约束

每个模型有固定上下文窗口。超出部分直接截断丢失。Token数越多，成本越高、速度越慢。

🎯 注意力衰减

"Lost in the Middle" — 模型对开头和结尾关注度高，中间容易"看漏"。上下文越长，推理质量越差。

对Agent的影响：Agent多步推理不断累积上下文 — 工具定义、每轮对话、每次工具返回都在消耗空间。管理上下文，和选对模型一样重要。

四、四肢与感官

4.8 上下文管理策略

不是把所有东西都塞进去，而是在正确的时间加载正确的信息

✂️

压缩与裁剪

旧对话摘要化，只保留最近N轮完整内容

类比：会议纪要代替完整录音

📦

Skills / 按需加载

不一次性加载所有工具定义，用到哪个技能包才加载哪个

类比：手机App — 装了100个，只打开你需要的

⚡

智能缓存

Prompt Caching缓存不变的系统提示；RAG按需检索代替预加载

类比：图书馆借书，不用把书都搬回家

Skills 模式（Claude Code、Cursor 等正在使用）：将Agent能力拆为独立"技能包"，System Prompt只放一句话描述。用户触发时才动态加载完整指令和工具定义。效果：上下文从 50K tokens 降到 5K — 更快、更便宜、推理更准确。

五、应用场景

5.1 通用场景

💻

代码助手

Cursor、Claude Code等 — 理解代码、自动修bug、生成新功能

理解整个代码库的上下文
自主读文件、改代码、跑测试
多轮迭代直到问题解决

🎧

智能客服

理解问题 → 查知识库 → 调业务系统 → 解决问题

路由分发到对应专业Agent
结合RAG查询产品文档
调用工单系统完成操作

五、应用场景

5.2 代码助手 — 以Cursor为例

用户指令→ 代码索引检索→ 上下文组装→ 模型规划→ 多文件编辑→ 终端验证→ 输出结果

🔍 理解代码库

代码索引 — Embedding + 向量搜索，快速定位相关代码
自动选取 — 将相关文件、函数填入上下文窗口
Rules文件 — .cursorrules / CLAUDE.md 提供项目规范与约束

🛠️ 自主执行

读写文件 — 跨文件编辑，运行终端命令、执行测试
Diff模式 — 精准修改而非全量重写，减少出错
多步迭代 — 改代码 → 跑测试 → 修复 → 直到通过

本质：Cursor = ReAct循环 + 代码索引(RAG) + 工具调用(读/写/终端) + 上下文管理 — 串联了前面讲过的所有核心概念

五、应用场景

5.3 Agent落地经验与避坑

🗑️ 上下文污染

塞太多无关信息 → 模型"注意力分散"，质量反而下降

经验：精选上下文 > 堆砌信息

👻 幻觉与虚构

模型会编造不存在的API/函数，写出看似正确的错误代码

经验：要求Agent先读代码再改，永远跑测试验证

🔄 循环陷阱

修A破B → 修B破A → 无限循环，越改越乱

经验：设置最大迭代次数，超限回退让人介入

💰 成本失控

无限制的Agent循环 = 烧钱（Token按量计费）

经验：设Token/轮次上限，用便宜模型做简单判断

护栏设计原则：Human-in-the-loop（关键操作需人确认）· 渐进信任（先小范围试，再放开权限）· 可观测（记录每步决策，出问题能回溯）

五、教育场景

5.4 教师智能体

📝 自动出题与组卷

根据知识点、难度、题型要求自动生成试卷

✅ 智能批改与反馈

批改作业/试卷，给出详细的错因分析和改进建议

📚 备课助手

根据课标和教材自动生成教案、课件大纲、教学活动设计

📊 学情分析

汇总学生学习数据，生成学情报告，识别薄弱知识点

核心价值：将教师从重复性工作中解放出来，让教师有更多精力投入到个性化教学和学生沟通中。

五、教育场景

5.5 学生智能体

🎯 个性化辅导

根据学生当前水平，自适应讲解、举例、追问，像1对1家教

❓ 苏格拉底式提问

不直接给答案，通过引导性提问帮助学生自主思考

📋 错题分析与巩固

分析错题原因，推荐针对性练习，跟踪掌握情况

📅 学习规划

根据目标和当前水平，制定个性化学习计划和复习安排

核心价值：每个学生都能获得个性化的学习体验，实现"因材施教"的教育理想。

五、教育场景

5.6 教育 Agent：构建路径与核心壁垒

通用大模型→ 教育领域适配→ 场景化 Agent→ 数据飞轮

🔧 如何构建

🧩 学科知识图谱：结构化的知识点、考点、能力关联
📐 教学策略库：教学法 + 提问技巧 + 难度梯度编排
👤 学生画像系统：学习行为、薄弱点、偏好的持续建模
✅ 效果评估引擎：对教学效果可量化（掌握率、成绩变化）

🏰 核心壁垒

📊 数据飞轮：教育数据 → 优化模型 → 更好体验 → 更多数据
🏫 场景渗透：与学校/机构深度集成，理解真实教学流程
🔒 信任壁垒：教育场景安全准确性要求极高，先入者建立信任
🎓 领域 Know-how：教学法 × AI 编排 = 不可替代的经验积累

关键洞察：模型能力是"水电煤"，所有人都能接入 → 不是壁垒

真正的护城河 = 领域数据 × 教学编排经验 × 场景渗透深度

六、总结

回顾：Agent的三大核心要素

Agent = 模型（大脑）+ 编排（思维方式）+ 工具与数据（四肢感官）

🧠 模型

理解、推理、生成 — 决定Agent的能力上限

💭 编排

11种模式，8个积木块 — 决定Agent的思考方式

🔧 工具

Tool Use / RAG / Memory — 让Agent能动手和感知

当前局限：幻觉、可控性、成本等

对我们的启发：理解Agent能力边界，在合适的场景中落地应用

六、总结

Agent 的未来演进

L1 聊天→ L2 工具→ L3 自主执行← 我们在这里→ L4 长期自主→ L5 协作智能

🧬 更长的记忆

从无状态对话到跨会话持久记忆；Agent从历史任务中学习，越用越懂你

🖥️ Computer Use

直接看屏幕、点鼠标、操作任意软件；不再需要专门的API集成

🤝 多Agent协作网络

专业Agent自动发现、协商、分工；类似微服务架构的Agent生态

🏗️ 从助手到同事

从"给指令-执行"到"理解目标-自主规划-持续推进"；数字同事

趋势：更自主 · 更持久 · 更协作 · 更通用

核心挑战不变：如何确保 Agent 可控、可信、与人类意图对齐