Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models
核心思想
LLM 的上下文优化存在两个关键问题:
- 简洁偏差 (Brevity Bias):优化方法倾向于坍缩为短而通用的提示,丢失领域特定细节
- 上下文坍缩 (Context Collapse):单体 LLM 重写将上下文退化为无信息的摘要
ACE 的核心理念:将上下文视为”演化的策略手册“(evolving playbooks)——不是压缩知识,而是通过模块化工作流(生成、反思、整理)积累策略。
方法详解
1. 三组件架构
| 组件 | 功能 | 输入 | 输出 |
|---|---|---|---|
| Generator | 对新查询生成推理轨迹 | 查询 + 当前上下文 | 策略和失败模式 |
| Reflector | 批判轨迹,提取具体教训 | 推理轨迹 | 结构化教训 |
| Curator | 合成教训为紧凑的”delta 条目”并确定性合并 | 教训 + 现有上下文 | 更新后的上下文 |
关键设计:Curator 使用确定性合并逻辑(非 LLM),避免了 LLM 重写导致的上下文坍缩。
2. 增量 Delta 更新
上下文结构化为带元数据的要点列表:
每个条目包含:
- 元数据:唯一 ID、有用/有害计数器
- 内容:可复用策略、领域概念、失败模式
这种设计支持:
- 局部化:只更新相关条目
- 细粒度检索:聚焦于相关知识
- 增量适应:高效合并和去重
3. Grow-and-Refine 机制
- 新条目:追加到上下文
- 已有条目:原地更新(计数器递增)
- 去重:通过语义嵌入的相似性剪枝冗余
- 精化:根据延迟需求主动或惰性触发
4. 离线 vs 在线适应
| 模式 | 特点 |
|---|---|
| 离线 | 在训练集上完整运行,批量反思和整理 |
| 在线 | 逐样本适应,实时更新上下文 |
实验结果
AppWorld Agent 基准
离线适应
| 方法 | TGC (test-normal) | 提升 | SGC | 提升 |
|---|---|---|---|---|
| Baseline | 63.7% | — | 42.9% | — |
| ReAct + ACE | 76.2% | +12.5% | 64.3% | +21.4% |
在线适应
| 方法 | TGC (test-normal) | 提升 | test-challenge | 提升 |
|---|---|---|---|---|
| Baseline | 63.7% | — | 41.5% | — |
| ReAct + ACE | 69.6% | +5.9% | 66.0% | +24.5% |
排行榜表现:使用开源 DeepSeek-V3.1 匹配 IBM CUGA (60.3%),在更难的 test-challenge 上超出 8.4% TGC。
无真实标签
ACE 仅使用执行反馈(无 ground truth)仍实现 14.8% 平均提升,展示鲁棒性。
金融分析基准
| 任务 | ACE (有标签) | 提升 | ACE (无标签) | 提升 |
|---|---|---|---|---|
| FiNER (实体标注) | 78.3% | +7.6% | 71.1% | +0.4% |
| Formula (数值推理) | 85.5% | +18.0% | 83.0% | +15.5% |
平均提升 8.6%,超过 ICL、MIPROv2、GEPA 等基线。
成本与延迟分析
| 对比 | ACE | 基线 | 节省 |
|---|---|---|---|
| 离线延迟 (AppWorld) | 9,517s | 53,898s | 82.3% |
| 离线 Rollouts | 357 | 1,434 | 75.1% |
| 在线延迟 (FiNER) | 5,503s | 65,104s | 91.5% |
| 在线 Token 成本 | $2.90 | $17.70 | 83.6% |
消融实验
| 配置 | 提升 |
|---|---|
| w/o Reflector + 多轮 | +12.7% |
| w/o 多轮 | +14.4% |
| 完整 ACE (离线) | +17.0% |
| 完整 ACE + warmup (在线) | +17.1% |
迭代精化和多轮适应各贡献了实质性增益。
个人思考
- 简洁偏差的发现很重要:LLM 优化器天然倾向于短提示,但领域知识往往需要详尽的上下文——两者矛盾。
- 确定性合并是避免上下文坍缩的关键:不让 LLM 重写整个上下文,而是用确定性逻辑做增量更新。
- 有用/有害计数器是优雅的设计:自然地追踪哪些策略有效、哪些有害,实现自动知识质量评估。
- 成本效率令人印象深刻:比 GEPA 快 82%、比 DC 便宜 84%,实用性很强。
- 局限性:依赖强 Reflector(弱反思产生噪声上下文);对简洁指令即可的任务(如 HotPotQA)效果有限。