# 大模型应用技术演进全景：RAG、MCP、Agent的三条主线与批判性观察

> **来源**：腾讯云开发者《万字详解大模型应用发展：RAG、MCP、Agent的爆发之旅》 **原文链接**：<https://cloud.tencent.com/developer/article/2620562> **发布日期**：2026-01-20 **精简整理**：2026-01-26

***

## 📌 核心价值

这篇文章的价值在于**系统性梳理了三条技术演进主线**，并揭示了它们的交汇点。对于理解当前AI工程实践的全貌有参考意义。

***

## 🧠 第一条主线：大模型基座演进

### 关键里程碑

| 时间        | 事件          | 核心突破                      |
| --------- | ----------- | ------------------------- |
| 2017      | Transformer | 自注意力机制解决长距离依赖             |
| 2018-2020 | BERT/GPT    | 预训练+微调范式                  |
| 2020      | GPT-3       | 1750亿参数，少样本/零样本学习         |
| 2021-2022 | SFT/RLHF    | 人类对齐，减少幻觉                 |
| 2022      | ChatGPT     | 对话式AI的"iPhone时刻"          |
| 2023-2024 | 多模态         | GPT-4V/4o，文本+图像+音频统一      |
| 2024      | 推理模型        | o1系列，从System 1到System 2思维 |
| 2025      | DeepSeek-R1 | 高性价比推理，RL驱动的CoT           |

### 🔍 批判性观察

**Scaling Law遇到瓶颈的信号**：

* GPT-4.5的信息："能力线性增长，算力指数飙升"
* 行业转向**定向训练**（Opinionated Training）而非无限扩大模型
* 推理成本急速下降，"卖Token"的商业模式不再成立

**启示**：基础模型竞争从"谁更大"转向"谁更聪明地训练"，DeepSeek以560万美元训练成本证明了这一点。

***

## 📚 第二条主线：RAG技术演进

### 演进路径

```
Naive RAG → Advanced RAG → Modular RAG → Graph RAG → Agentic RAG
   ↓              ↓              ↓            ↓            ↓
索引-检索-生成  预/后索引优化   模块化可插拔   知识图谱融合   Agent协调检索
```

### 各阶段核心技术

| 阶段               | 核心思想    | 关键技术                   |
| ---------------- | ------- | ---------------------- |
| **Naive RAG**    | 三阶段流水线  | 向量检索 + Top-K           |
| **Advanced RAG** | 全流程优化   | 多粒度分块、混合检索、ReRank、HyDE |
| **Modular RAG**  | 乐高式组合   | 独立模块、动态编排、路由调度         |
| **Graph RAG**    | 结构化知识   | 知识图谱、实体关系、多跳推理         |
| **Agentic RAG**  | Agent协调 | 多源聚合、迭代验证、动态决策         |

### 🔍 批判性观察

**RAG的本质困境**：

1. **语义鸿沟未根本解决**：无论多少优化，Embedding的语义表达能力有上限
2. **Graph RAG的可扩展性问题**：知识图谱构建成本高，数据质量依赖强
3. **Agentic RAG的成本问题**：多次LLM调用带来的延迟和费用

**与本库已有文章的对照**：

* 参见 `# 🚨 RAG讣告批判性阅读报告：Agent Search是革命还是过度乐观？`
* RAG并未"死亡"，而是在向Agent化方向演进

***

## 🤖 第三条主线：Agent设计模式演进

### 设计模式树

```
COT (思维链)
 └── TOT (思维树) ──→ 多路径探索
 └── ReAct ──→ 推理+行动循环
      └── Reflection ──→ 自我反思
           └── Reflexion ──→ 强化学习+记忆
                └── LATS ──→ 蒙特卡洛树搜索
Planning系列
 └── ReWOO ──→ 一次性规划
 └── Plan-and-Execute ──→ 规划+执行+重规划
 └── LLM Compiler ──→ DAG并行执行
MultiAgent
 └── Network / Supervisor / Hierarchical / Custom
```

### 核心模式对比

| 模式                   | 核心思想       | 优势         | 局限         |
| -------------------- | ---------- | ---------- | ---------- |
| **ReAct**            | 思考-行动-观察循环 | 动态决策、可解释   | 成本高、易陷入死循环 |
| **Reflexion**        | 语言形式的强化学习  | 长短期记忆、自我改进 | 需要好的验证器    |
| **Plan-and-Execute** | 先规划后执行     | 适合复杂任务     | 规划失误代价大    |
| **MultiAgent**       | 多专家协作      | 分布式、专业化    | 协调复杂、沟通开销  |

### 🔍 批判性观察

**MultiAgent的失败模式**（来自论文 arxiv.org/abs/2503.13657）：

1. **规范问题**：不遵循任务要求、步骤重复、不知何时终止
2. **沟通问题**：Agent间误解、信息不流通
3. **验证问题**：质检环节形同虚设

**改进建议**：

* 明确任务终止条件
* 标准化通信协议
* 强化验证机制（符号验证、单元测试）
* 低置信度时暂停请求更多信息

***

## 🔌 第四条主线：通信协议演进

### 协议定位

```
用户 ←──── AG-UI ────→ Agent ←──── MCP ────→ 外部工具/数据
                         ↕
                        A2A
                         ↕
                      其他Agent
```

### 协议对比

| 协议               | 定位          | 核心能力                    | 局限性           |
| ---------------- | ----------- | ----------------------- | ------------- |
| **FunctionCall** | LLM调用工具     | JSON Schema定义函数         | 缺乏统一标准、上下文不统一 |
| **MCP**          | Agent↔工具/数据 | 标准化、可扩展、Client-Server架构 | 安全性问题待解决      |
| **A2A**          | Agent↔Agent | 能力发现、任务管理、协作            | 生态尚未成熟        |
| **AG-UI**        | Agent↔用户界面  | 实时事件流、人机协作              | 需要前端适配        |

### 🔍 批判性观察

**MCP的战略意义**：

* 解决了"N×M"集成问题（N个模型×M个工具）
* 但**安全性是最大隐患**，参见本库 `# 🚨 首个恶意MCP服务器案例`

**A2A的现实挑战**：

* Google主导，但生态参与度待观察
* Agent间信任机制尚不成熟

***

## 🌐 通用Agent产品演进

### 关键产品

| 产品               | 公司        | 核心能力          | 范式贡献         |
| ---------------- | --------- | ------------- | ------------ |
| **Computer Use** | Anthropic | 模拟人类操作电脑      | 从API到GUI操作   |
| **Operator**     | OpenAI    | 浏览器自动化        | CUA模型（视觉+RL） |
| **Manus**        | Monica    | 多Agent协作+沙盒执行 | 人机协作范式       |
| **DeepResearch** | OpenAI    | 端到端研究报告生成     | 模型即产品        |

### 🔍 批判性观察

**"模型即产品"的范式转变**：

原文引用的两个关键观点：

> "端到端Agent，模型即产品" —— Alexander Doria
>
> DeepResearch不是标准LLM，是**研究型语言模型**（Research Language Model）

**这意味着**：

1. 未来的Agent不是"LLM+工具链"，而是**从训练阶段就为特定任务设计**
2. 强化学习+推理的组合正在成为Agent训练的主流范式
3. "简单套壳"的Agent产品将被淘汰

***

## 🎯 构建Agent的实践原则

### Anthropic/OpenAI/Google的共识

1. **简单优先**：优先寻找最简单的解决方案
2. **工作流 vs Agent**：明确任务用工作流，灵活任务用Agent
3. **单Agent优先**：先最大化单Agent能力，再考虑多Agent
4. **透明性**：展示规划步骤，建立用户信任
5. **评估驱动**：建立量化指标驱动持续优化

### 框架使用建议

* **弊端**：框架增加抽象层，使调试困难
* **建议**：先直接使用LLM API，很多模式几行代码就能实现

***

## 📊 总结：三条主线的交汇

```
基座模型演进（推理能力↑）
        ↓
   ┌────┴────┐
   ↓         ↓
RAG演进    Agent演进
   ↓         ↓
   └────┬────┘
        ↓
   Agentic RAG
        ↓
   通信协议标准化（MCP/A2A）
        ↓
   通用Agent产品（Operator/Manus/DeepResearch）
        ↓
   端到端模型化Agent（模型即产品）
```

**核心趋势**：

1. RAG和Agent正在融合（Agentic RAG）
2. 协议标准化正在加速（MCP/A2A/AG-UI）
3. Agent从"编排"走向"端到端训练"
4. 成本和延迟仍是主要瓶颈

***

## 🔗 相关阅读

本库相关文章：

* `[2025-01-01] # 🔌 MCP生态全景调研：协议、框架与实现全景图.md`
* `[2025-10-01] # 🚨 RAG讣告批判性阅读报告：Agent Search是革命还是过度乐观？.md`
* `[2025-10-15] AI是如何学会边想边做的：从ReAct框架到智能体的进化.md`
* `[2026-01-13] 🏗️ 大模型架构演进全景：从Chatbot到Agent的四层架构体系.md`
* `[2025-10-06] # 🚨 首个恶意MCP服务器案例：AI供应链安全的警钟.md`
