# arXiv Papers Archive

## 📚 文件夹说明

这是Assemble知识库中专门存放**学术论文深度解读**的区域。这里不是简单的论文摘要，而是包含：

* ✅ 历史演进分析
* ✅ 技术设计哲学
* ✅ 批判性思考
* ✅ 实践应用指南
* ✅ 与当前技术的对比

## 🎯 收录标准

### 什么样的论文会被收录？

1. **基础性论文**：定义了某个技术领域的开创性工作
2. **影响力论文**：被广泛引用，改变了技术发展方向
3. **工程价值论文**：理论与实践结合，有落地价值
4. **思维启发论文**：提供独特视角和设计哲学

### 不收录什么？

* ❌ 纯理论推导，缺乏工程洞察
* ❌ 边缘性改进，缺乏创新性
* ❌ 单纯的实验报告

## 📋 论文解读模板

每篇论文解读应包含以下核心部分（基于"技术内容思路构建Prompt"）：

### 1. 速查表 ⚡

* 论文核心信息一览
* 关键结论提炼
* 技术指标速查

### 2. 历史演进 📜

* 技术发展时间线
* 为什么在这个时间点出现？
* 解决了什么历史遗留问题？

### 3. 设计哲学 🏗️

* 核心设计思想
* 技术决策的权衡（Trade-offs）
* 架构设计的美学

### 4. 思维路线 💡

* 问题定义
* 解决方案构建路径
* 核心因果关系

### 5. 技术深度 🔬

* 架构细节
* 算法实现
* 训练策略

### 6. 批判性思考 🤔

* 论文局限性
* 未充分讨论的问题
* 与当前技术对比

### 7. 核心洞察 💎

* 对技术决策的启示
* 对学习者的建议
* 实践行动指南

## 📂 文件命名规范

```
# 📄 [论文主题]：[副标题]（[机构/作者] [年份]）.md
```

**示例**：

* `# 📄 RAG开创性论文解读：检索增强生成的技术革命（Meta AI 2020）.md`
* `# 📄 Transformer架构：Attention Is All You Need深度解析（Google 2017）.md`

## 🗂️ 分类体系

### 按技术领域分类

* **🤖 AI基础架构**：Transformer、BERT、GPT等
* **🔍 检索与RAG**：RAG、DPR、Self-RAG等
* **🧠 训练方法**：RLHF、PPO、DPO等
* **🏗️ 工程实践**：系统优化、部署架构等
* **📊 评估方法**：Benchmark、评估框架等

### 按时间线分类

* **2017-2018**：深度学习基础（Transformer、BERT）
* **2019-2020**：大模型初期（GPT-3、RAG）
* **2021-2022**：应用探索期（Prompt工程、In-Context Learning）
* **2023-2024**：Agent时代（Multi-Agent、RAG进化）

## 📊 当前收录论文列表

### 2017年

| 论文                            | 作者/机构  | 核心贡献            | 状态    |
| ----------------------------- | ------ | --------------- | ----- |
| **Attention Is All You Need** | Google | Transformer架构开创 | ✅ 已解读 |

### 2020年

| 论文                                 | 作者/机构   | 核心贡献     | 状态    |
| ---------------------------------- | ------- | -------- | ----- |
| **Retrieval-Augmented Generation** | Meta AI | RAG开创性工作 | ✅ 已解读 |

### 2022年

| 论文                                          | 作者/机构           | 核心贡献      | 状态    |
| ------------------------------------------- | --------------- | --------- | ----- |
| **Chain-of-Thought Prompting**              | Google Brain    | 开启LLM推理能力 | ✅ 已解读 |
| **HyDE (Hypothetical Document Embeddings)** | Carnegie Mellon | 零样本密集检索优化 | ✅ 已解读 |

### 2023年

| 论文                                          | 作者/机构     | 核心贡献          | 状态    |
| ------------------------------------------- | --------- | ------------- | ----- |
| **LLMLingua: Prompt Compression**           | Microsoft | Prompt压缩20倍   | ✅ 已解读 |
| **LLM Compiler: Parallel Function Calling** | Berkeley  | 并行函数调用，3.7x加速 | ✅ 已解读 |
| **RAGAS: Automated Evaluation**             | Community | RAG评估标准框架     | ✅ 已解读 |
| **EGS: Audience Simulation**                | Stanford  | LLM模拟受众优化沟通   | ✅ 已解读 |

### 2025年

| 论文                                                  | 作者/机构   | 核心贡献       | 状态    |
| --------------------------------------------------- | ------- | ---------- | ----- |
| **Continual Learning via Sparse Memory Finetuning** | Meta AI | 灾难性遗忘降到11% | ✅ 已解读 |

### 待收录清单

#### 高优先级（基础必读）

* [ ] **Attention Is All You Need** (2017) - Transformer开山之作
* [ ] **BERT** (2018) - 预训练范式奠基
* [ ] **GPT-3** (2020) - 大模型时代开启
* [ ] **InstructGPT** (2022) - RLHF范式
* [ ] **Chain-of-Thought Prompting** (2022) - 思维链

#### 中优先级（RAG系列）

* [ ] **Dense Passage Retrieval** (2020) - RAG的检索基础
* [ ] **Fusion-in-Decoder** (2020) - 多文档融合
* [ ] **Self-RAG** (2023) - 自我反思的RAG
* [ ] **CRAG** (2024) - 纠正性RAG
* [x] **HyDE** (2022) - 假设文档嵌入 ✅ 已解读

#### 低优先级（深入研究）

* [ ] **LoRA** (2021) - 高效微调
* [ ] **RLHF** (2022) - 人类偏好对齐
* [ ] **Constitutional AI** (2022) - 价值观对齐

## 🎯 使用建议

### 如何阅读这些解读？

1. **快速了解**：先看"速查表"部分
2. **系统学习**：按历史演进 → 设计哲学 → 技术深度的顺序
3. **深度思考**：重点关注"批判性思考"和"核心洞察"
4. **实践应用**：按"行动建议"去动手实践

### 如何与其他内容结合？

* **与工程思维结合**：论文的设计哲学 → 工程实践
* **与案例研究结合**：理论 → 实际应用案例
* **与技术报告结合**：学术突破 → 产业落地

## 🔄 更新机制

### 何时添加新论文？

1. **发现重要论文**：通过阅读、社区推荐等途径
2. **评估收录价值**：符合收录标准
3. **创建深度解读**：使用"技术内容思路构建Prompt"
4. **更新本README**：添加到列表和待收录清单

### 质量保证

每篇解读应经过：

1. ✅ 历史背景验证
2. ✅ 技术细节准确性检查
3. ✅ 批判性分析（避免盲目附和）
4. ✅ 实践价值评估

## 📚 相关资源

### 论文来源

* **arXiv.org**：预印本论文
* **Papers with Code**：论文+代码实现
* **Hugging Face Papers**：社区精选

### 学习路径

1. **入门**：从基础论文（Transformer、BERT）开始
2. **进阶**：选择感兴趣的方向深入（RAG、Agent等）
3. **实践**：结合开源实现动手复现
4. **创新**：在现有基础上探索改进

### 讨论与交流

* 论文解读有疑问？在文档中留下评论
* 发现论文错误或遗漏？提出改进建议
* 有新的洞察？贡献你的思考

***

## 🎯 目标与愿景

**这个Archive的目标**：

> 不是堆砌论文摘要，而是通过深度解读，帮助自己和读者：
>
> 1. 理解技术的**历史演进逻辑**
> 2. 掌握技术的**设计哲学**
> 3. 培养**批判性思维**
> 4. 建立从理论到实践的**系统性知识体系**

**我们相信**：

* 好的论文解读，应该比论文本身更容易理解
* 批判性思考，是防范AI附和陷阱的关键
* 历史视角，帮助理解技术的前因后果
* 工程洞察，是学术研究的价值所在

***

**创建时间**：2024年10月15日\
**维护者**：Assemble知识库\
**更新频率**：不定期，随论文阅读进度

**最后更新**：2025年1月\
**论文总数**：9（已完整解读）\
**已解读**：Transformer, RAG, Chain-of-Thought, HyDE, LLMLingua, LLM Compiler, Sparse Memory Finetuning, RAGAS, EGS\
**待收录**：15+