# AI是如何学会"边想边做"的：从ReAct框架到智能体的进化

> **核心观点**：如果你还在教AI怎么"思考-行动-观察"，那说明你用的AI还停留在上一代。新一代AI已经把这套本领练成了本能。

***

## 🎬 开场：一个简单的问题

假设你问AI："苹果公司昨天的收盘价是多少？"

**老一代AI**会这样：

* 💭 "呃...我的训练数据里没有实时股价信息，我无法回答。"

\*\*新一代AI（有Agent能力）\*\*会这样：

1. 💭 思考："需要查询实时股价数据"
2. 🔧 行动：调用金融API查询AAPL股票
3. 👀 观察：收到结果"175.04美元"
4. 💬 回答："苹果公司昨天的收盘价是175.04美元"

这之间的差别，就是今天要聊的故事。

***

## 📖 第一章：ReAct框架——教AI学会"边想边做"

### 什么是ReAct？

**ReAct = Reasoning（推理）+ Acting（行动）**

2023年，研究人员发现：如果给AI设计一套"思考-行动-观察"的循环流程，它就能像人一样解决复杂问题。

### 🔄 ReAct的工作循环

想象你要找一家餐厅：

```
【人类的思维过程】
💭 思考："我想吃川菜，得先搜索一下附近有什么餐厅"
🔍 行动：打开地图搜索"川菜"
👀 观察："看到三家川菜馆，'蜀香阁'评分最高"
💭 再思考："看看营业时间和订座情况"
📞 行动：打电话询问
👀 观察："今晚8点有位置"
✅ 决定："就去这家！"
```

ReAct框架就是把这个人类思维过程"教"给AI：

```
【AI的ReAct流程】
Thought（思考） → Action（行动） → Observation（观察） → 
Thought（再思考） → Action（再行动） → ... → Answer（最终答案）
```

### 🎯 一个真实的例子

**问题**："特斯拉Model 3在中国的最新售价比美国贵多少？"

传统AI：❌ "抱歉，我无法获取实时价格信息"

ReAct框架下的AI：

```
💭 Thought: "需要分别查询中美两地的Model 3售价"
🔧 Action: 搜索"Tesla Model 3 price China 2025"
👀 Observation: "中国售价：人民币229,900元起"

💭 Thought: "已知中国价格，现在查美国价格"
🔧 Action: 搜索"Tesla Model 3 price USA 2025"  
👀 Observation: "美国售价：38,990美元起"

💭 Thought: "需要汇率换算，查一下当前美元兑人民币汇率"
🔧 Action: 查询汇率API
👀 Observation: "当前汇率：1美元 = 7.25人民币"

💭 Thought: "可以计算了：38,990×7.25 = 282,678元"
💬 Answer: "中国售价约229,900元，美国售价约282,678元人民币，
          中国反而便宜约52,778元（约13,000美元）"
```

看到了吗？AI不再是"一问一答"，而是会**主动分解任务、调用工具、收集信息**，就像一个真正会做研究的助手。

***

## 🚀 第二章：从"手动挡"到"自动挡"——AI的进化

### 🎓 早期：需要"手把手教"

2023年使用ReAct框架时，我们需要在提示词里明确写：

```
你需要遵循以下步骤：
1. 先思考（Thought）下一步该做什么
2. 决定行动（Action）并说明要用什么工具
3. 等待观察（Observation）工具返回的结果
4. 重复上述步骤直到能给出最终答案
```

就像教一个新手司机开手动挡车，油门、离合、换挡都要教。

### 🎯 现在：AI自己就会了

2025年的先进AI模型（如Claude 3.5 Sonnet、GPT-4等）：

✅ **不需要提示词教它ReAct**\
✅ **自己知道什么时候该查资料**\
✅ **自己决定调用什么工具**\
✅ **自己判断信息够不够，要不要继续查**

这就像老司机开自动挡车，AI把ReAct这套本领**内化**成了自己的能力。

### 📊 对比表：从提示词到能力

| 维度       | 2023：需要ReAct提示词 | 2025：内置Agent能力 |
| -------- | --------------- | -------------- |
| **工作方式** | 人类用提示词引导每一步     | AI自主规划和执行      |
| **工具调用** | 需要明确说明"请使用XX工具" | AI自己判断该用什么工具   |
| **多步推理** | 需要在提示词里设计流程     | AI自动循环直到解决问题   |
| **适用场景** | 固定流程的任务         | 开放式复杂问题        |
| **开发成本** | 高（需要精心设计提示词）    | 低（只需提供工具列表）    |

***

## 🧠 第三章：什么是真正的"Agent能力"？

### 🤔 会用工具 ≠ 智能体

很多人误解：只要AI能调用工具，就算有Agent能力了。

**其实不是！** 真正的Agent需要三大核心能力：

#### 1️⃣ 自主规划能力

* ❌ **工具调用**：人类说"查天气"，AI查天气
* ✅ **Agent**：人类说"明天适合去爬山吗"，AI自己决定查天气、查景区开放时间、查交通路况

#### 2️⃣ 循环决策能力

* ❌ **工具调用**：调用一次工具，返回结果，结束
* ✅ **Agent**：调用工具→分析结果→判断是否需要更多信息→继续调用→直到问题解决

#### 3️⃣ 目标导向能力

* ❌ **工具调用**：执行指令
* ✅ **Agent**：理解最终目标，自己规划达成路径

### 🎯 举个例子：调试代码

**问题**："这段Python代码运行报错，帮我修复"

***

**普通工具调用模型**：

```
AI: "你的代码第15行有语法错误，应该改成..."
人类: "改了还是报错"
AI: "可能是缩进问题..."
人类: "还不对"
AI: "..."
```

需要人类不断反馈，AI被动响应。

***

**Agent模型**：

```
💭 Thought: "先分析错误信息"
🔧 Action: 读取完整错误堆栈
👀 Observation: "ImportError: No module named 'requests'"

💭 Thought: "缺少依赖，检查虚拟环境"
🔧 Action: 检查requirements.txt和当前环境
👀 Observation: "requirements.txt中有requests，但虚拟环境未安装"

💭 Thought: "需要安装依赖"
🔧 Action: 运行 pip install -r requirements.txt
👀 Observation: "安装成功"

💭 Thought: "再次运行代码验证"
🔧 Action: 执行python script.py
👀 Observation: "运行成功，无报错"

💬 Answer: "问题已解决！原因是虚拟环境中缺少requests库，
          我已安装依赖并验证代码可以正常运行。"
```

Agent**自主完成了整个调试流程**，不需要人类每一步都介入。

***

## 🎨 第四章：ReAct现在还有用吗？

### 答案：看情况

#### ✅ 什么时候还需要ReAct提示词？

**1. 固定流程的任务**

如果你非常清楚解决某类问题的最佳步骤，用ReAct风格的提示词反而更高效：

```
【数据分析固定流程】
1. 先用SQL查询原始数据
2. 用Python清洗数据
3. 用统计方法分析
4. 生成可视化图表
5. 输出结论报告
```

这种情况下，明确的步骤引导比让AI自由探索更快更准。

**2. 使用老模型**

如果用的是不具备Agent能力的模型（如早期的GPT-3.5），ReAct提示词仍然是提升性能的有效方法。

#### ❌ 什么时候不需要了？

**开放式问题 + 先进模型 = 让AI自由发挥**

例如："帮我策划一场技术分享会"

这种没有固定套路的任务，新一代Agent模型会比人类设计的流程更灵活：

* 自己去查最新的技术热点
* 自己评估受众兴趣
* 自己设计议程和互动环节
* 根据反馈动态调整方案

***

## 💡 第五章：给普通人的启示

### 1️⃣ AI正在从"工具"变成"助手"

**过去**：AI是一把锤子，你得告诉它"敲这里"\
**现在**：AI是个助理，你只需说"帮我把这幅画挂墙上"

### 2️⃣ 未来的AI使用技巧

* ❌ 不要：详细列出每一步操作
* ✅ 应该：清楚说明你的目标和约束条件

**低效的提问**：

```
"帮我：
1. 搜索北京明天天气
2. 如果下雨就推荐室内活动
3. 如果晴天就推荐户外景点
4. 给出交通路线"
```

**高效的提问**：

```
"明天想在北京玩一天，预算500元，
喜欢人文景点，不喜欢太商业化的地方，
帮我规划一下行程"
```

Agent会自动：

* 查天气决定室内/户外
* 根据预算筛选活动
* 依据偏好推荐景点
* 规划最优路线

### 3️⃣ 理解AI的局限

Agent能力虽强，但不是万能的：

| AI擅长      | AI不擅长              |
| --------- | ------------------ |
| ✅ 信息收集和整合 | ❌ 主观判断（如"这个设计好看吗"） |
| ✅ 逻辑推理和规划 | ❌ 需要真实体验的建议        |
| ✅ 重复性分析任务 | ❌ 创造性突破（需要人类引导）    |
| ✅ 多维度对比评估 | ❌ 伦理和价值观决策         |

***

## 🎯 总结：从ReAct到Agent的三个关键认知

### 📌 认知1：ReAct是方法，Agent是能力

* **ReAct**：一套让AI"边想边做"的工作流程（2023年的创新）
* **Agent**：把这套流程内化，变成AI的本能（2025年的进化）

### 📌 认知2：不是所有"会用工具"的AI都是Agent

真正的Agent = 自主规划 + 循环决策 + 目标导向

### 📌 认知3：未来趋势是"少说怎么做，多说要什么"

* **过去**：教AI步骤（How）→ 需要ReAct提示词
* **现在**：告诉AI目标（What）→ Agent自己规划
* **未来**：AI理解意图（Why）→ 主动提出更好的方案

***

## 🌟 写在最后

当AI学会了"边想边做"，它就从**被动的问答工具**进化成了**主动的问题解决者**。

ReAct框架的伟大之处不在于它是一套永恒的提示词模板，而在于它揭示了**智能体工作的本质**：

> 真正的智能，不是知道所有答案，而是知道如何找到答案。

现在，这个能力已经写进了AI的"基因"里。

下次当你使用那些会自己搜索资料、会调用工具、会多步规划的AI助手时，不妨想想：

* 它正在脑海里进行"Thought → Action → Observation"的循环
* 只不过这一切都在后台自动发生
* 你只需要坐等结果

这就是AI从"手动挡"进化到"自动挡"的魅力所在。🚗💨

***

## 📚 扩展阅读

* ReAct框架原始论文（2023）
* Anthropic Claude的工具使用指南
* OpenAI Function Calling文档
* 宝玉原文：[ReAct框架与AI Agent：当AI学会自己思考和行动](https://baoyu.io/blog/react-ai-agent-self-thinking-acting)

***

**创作日期**：2025年10月15日\
**文章定位**：AI技术科普 | 面向普通读者\
**参考资料**：宝玉《ReAct框架与AI Agent：当AI学会自己思考和行动》
