← 返回列表

Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models

作者 Qizheng Zhang, Changran Hu, Shubhangi Upasani, Boyuan Ma, Fenglu Hong, Vamsidhar Kamanuru, Jay Rainton, Chen Wu, Mengmeng Ji, Hanchen Li, Urmish Thakker, James Zou, Kunle Olukotun

年份 2025

会议/期刊 ICLR 2026

评分 ★ ★ ★ ★ ★

标签 LLM Agent 上下文工程

摘要提出 ACE 框架解决上下文优化中的简洁偏差和上下文坍缩问题，通过 Generator-Reflector-Curator 三组件架构实现上下文渐进演化

论文原文代码仓库

核心思想

LLM 的上下文优化存在两个关键问题：

简洁偏差 (Brevity Bias)：优化方法倾向于坍缩为短而通用的提示，丢失领域特定细节
上下文坍缩 (Context Collapse)：单体 LLM 重写将上下文退化为无信息的摘要

ACE 的核心理念：将上下文视为”演化的策略手册“（evolving playbooks）——不是压缩知识，而是通过模块化工作流（生成、反思、整理）积累策略。

方法详解

1. 三组件架构

组件	功能	输入	输出
Generator	对新查询生成推理轨迹	查询 + 当前上下文	策略和失败模式
Reflector	批判轨迹，提取具体教训	推理轨迹	结构化教训
Curator	合成教训为紧凑的”delta 条目”并确定性合并	教训 + 现有上下文	更新后的上下文

关键设计：Curator 使用确定性合并逻辑（非 LLM），避免了 LLM 重写导致的上下文坍缩。

2. 增量 Delta 更新

上下文结构化为带元数据的要点列表：

每个条目包含：

元数据：唯一 ID、有用/有害计数器
内容：可复用策略、领域概念、失败模式

这种设计支持：

局部化：只更新相关条目
细粒度检索：聚焦于相关知识
增量适应：高效合并和去重

3. Grow-and-Refine 机制

新条目：追加到上下文
已有条目：原地更新（计数器递增）
去重：通过语义嵌入的相似性剪枝冗余
精化：根据延迟需求主动或惰性触发

4. 离线 vs 在线适应

模式	特点
离线	在训练集上完整运行，批量反思和整理
在线	逐样本适应，实时更新上下文

实验结果

AppWorld Agent 基准

离线适应

方法	TGC (test-normal)	提升	SGC	提升
Baseline	63.7%	—	42.9%	—
ReAct + ACE	76.2%	+12.5%	64.3%	+21.4%

在线适应

方法	TGC (test-normal)	提升	test-challenge	提升
Baseline	63.7%	—	41.5%	—
ReAct + ACE	69.6%	+5.9%	66.0%	+24.5%

排行榜表现：使用开源 DeepSeek-V3.1 匹配 IBM CUGA (60.3%)，在更难的 test-challenge 上超出 8.4% TGC。

无真实标签

ACE 仅使用执行反馈（无 ground truth）仍实现 14.8% 平均提升，展示鲁棒性。

金融分析基准

任务	ACE (有标签)	提升	ACE (无标签)	提升
FiNER (实体标注)	78.3%	+7.6%	71.1%	+0.4%
Formula (数值推理)	85.5%	+18.0%	83.0%	+15.5%

平均提升 8.6%，超过 ICL、MIPROv2、GEPA 等基线。

成本与延迟分析

对比	ACE	基线	节省
离线延迟 (AppWorld)	9,517s	53,898s	82.3%
离线 Rollouts	357	1,434	75.1%
在线延迟 (FiNER)	5,503s	65,104s	91.5%
在线 Token 成本	$2.90	$17.70	83.6%

消融实验

配置	提升
w/o Reflector + 多轮	+12.7%
w/o 多轮	+14.4%
完整 ACE (离线)	+17.0%
完整 ACE + warmup (在线)	+17.1%

迭代精化和多轮适应各贡献了实质性增益。

个人思考

简洁偏差的发现很重要：LLM 优化器天然倾向于短提示，但领域知识往往需要详尽的上下文——两者矛盾。
确定性合并是避免上下文坍缩的关键：不让 LLM 重写整个上下文，而是用确定性逻辑做增量更新。
有用/有害计数器是优雅的设计：自然地追踪哪些策略有效、哪些有害，实现自动知识质量评估。
成本效率令人印象深刻：比 GEPA 快 82%、比 DC 便宜 84%，实用性很强。
局限性：依赖强 Reflector（弱反思产生噪声上下文）；对简洁指令即可的任务（如 HotPotQA）效果有限。

← 返回列表