Paper Reading Notes

个人论文阅读笔记归档

共 98 篇论文

排序：

标题	作者	年份	会议/期刊	标签	评分
SeeUPO: Sequence-Level Agentic-RL with Convergence Guarantees 多轮智能体 RL 的收敛性保证：证明 GRPO+PPO 在多轮场景下收敛性被破坏，提出逆序逐轮更新的 SeeUPO（反向归纳），Qwen3-14B 相对提升 43-55%	Tianyi Hu, Qingxu Fu, Yanxi Chen, Zhaoyang Liu, Bolin Ding	2026	arXiv 2026	智能体强化学习收敛保证	★ ★ ★ ★ ★
DLLM Agent: See Farther, Run Faster 扩散 LLM 作为智能体骨干：首次控制对比 DLLM vs AR 在相同框架下的行为差异，端到端速度提升 30%+，最高 8× 加速，更少工具调用 + 更强全局规划	Huiling Zhen, Weizhe Lin, Renxi Liu, Kai Han, Yiming Li, Yuchuan Tian, Hanting Chen, et al.	2026	arXiv 2026	扩散语言模型智能体工具使用	★ ★ ★ ★ ★
Diffusion In Diffusion: Reclaiming Global Coherence in Semi-Autoregressive Diffusion 块扩散的全局一致性修复：草稿-修正两阶段 + 快照置信度重掩码 + 混合尺度训练，困惑度 25.7→21.9，仅用基线 26% 微调预算	Linrui Ma, Yufei Cui, Kai Han, Yunhe Wang	2026	arXiv 2026	扩散语言模型块扩散全局一致性	★ ★ ★ ★ ★
Deferred Commitment Decoding for Diffusion Language Models 扩散 LLM 的延迟承诺解码：识别块边界上下文截断（BICT）问题，确定性感知滑动窗口 + 动态块扩展，无需训练，平均 +1.73% 准确率，最高 +16.5%	Yingte Shu, Yuchuan Tian, Chao Xu, Yunhe Wang, Hanting Chen	2026	arXiv 2026	扩散语言模型解码策略推理加速	★ ★ ★ ★ ★
Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents 统一长短期记忆管理的 LLM 智能体：6 种记忆工具（增删改查+摘要+过滤）+ 三阶段渐进式 RL + Step-wise GRPO，跨 5 个基准平均提升 4.8-8.6pp	Yi Yu, Liuyi Yao, Yuexiang Xie, Qingquan Tan, Jiaqi Feng, Yaliang Li, Libing Wu	2026	arXiv 2026	智能体记忆管理强化学习	★ ★ ★ ★ ★
Visual Jigsaw Post-Training Improves MLLMs 自监督视觉拼图后训练：将图像/视频/3D 打乱为 patch 让模型预测排列顺序，GRPO 训练提升细粒度感知，MMVP +6.0%	Penghao Wu, Yushan Zhang, Haiwen Diao, Bo Li, Lewei Lu, Ziwei Liu	2025	arXiv 2025	多模态强化学习	★ ★ ★ ★ ★
Vid-CamEdit: Video Camera Trajectory Editing with Generative Rendering from Estimated Geometry 视频相机轨迹编辑：估计时序一致几何 + 光流条件生成渲染 + 分解微调避免 4D 数据，LPIPS/帧一致性全面最优，支持极端视角外推	Junyoung Seo, Jisang Han, Jaewoo Jung, Siyoon Jin, JoungBin Lee, Takuya Narihira, Kazumi Fukuda, Takashi Shibuya, Donghoon Ahn, Shoukang Hu, Seungryong Kim, Yuki Mitsufuji	2025	arXiv 2025	视频编辑相机轨迹 3D重建	★ ★ ★ ★ ★
VFScale: Intrinsic Reasoning through Verifier-Free Test-time Scalable Diffusion Model 无需外部验证器的扩散模型测试时缩放：MRNCL 损失 + KL 正则化修正能量景观 + 混合 MCTS 搜索，6×6 训练外推至 15×15 迷宫达 88% 成功率	Tao Zhang, Jia-Shu Pan, Ruiqi Feng, Tailin Wu	2025	ICLR 2026	扩散模型测试时缩放推理增强	★ ★ ★ ★ ★
VeriFree: Reinforcing General Reasoning without Verifiers 无需验证器的通用推理 RL：用模型对参考答案的置信度替代二元验证奖励，方差更低，MMLU-Pro 提升 16.3%	Xiangxin Zhou, Zichen Liu, Anya Sims, Haonan Wang, Tianyu Pang, Chongxuan Li, Liang Wang, Min Lin, Chao Du	2025	arXiv 2025	LLM推理强化学习	★ ★ ★ ★ ★
Variational Reasoning for Language Models 将思维链视为隐变量、用变分推断优化：ELBO + IWAE 多轨迹界 + 前向 KL 后验训练，统一解释 RFT/RL/GRPO 的偏差来源	Xiangxin Zhou, Zichen Liu, Haonan Wang, Chao Du, Min Lin, Chongxuan Li, Liang Wang, Tianyu Pang	2025	arXiv 2025	LLM推理强化学习	★ ★ ★ ★ ★
Taming the Long-Tail: Efficient Reasoning RL Training with Adaptive Drafter 解决推理 RL 训练中长尾响应分布问题：自适应投机解码 + 机会性 draft 模型训练，实现 1.7-2.1× 加速且无损质量	Qinghao Hu, Shang Yang, Junxian Guo, Xiaozhe Yao, Yujun Lin, Yuxian Gu, Han Cai, Chuang Gan, Ana Klimovic, Song Han	2025	arXiv 2025	RL训练 LLM推理	★ ★ ★ ★ ★
ThinkMerge: Think in Parallel, Answer as One 无训练即插即用解码策略：并行生成 K 条推理链，在同步点合并 logits 生成统一答案，代码任务 pass@1 提升 5.77%	Haonan Wang, Chao Du, Kenji Kawaguchi, Tianyu Pang	2025	arXiv 2025	LLM推理解码策略	★ ★ ★ ★ ★
StreamingVLM: Real-Time Understanding for Infinite Video Streams 统一训练-推理框架实现无限视频流实时理解：流式 KV cache 管理 + 连续 RoPE + 重叠块训练，8 FPS 实时解说	Ruyi Xu, Guangxuan Xiao, Yukang Chen, Liuning He, Kelly Peng, Yao Lu, Song Han	2025	arXiv 2025	视频理解多模态	★ ★ ★ ★ ★
SteerMusic: Enhanced Musical Consistency for Zero-shot Text-Guided and Personalized Music Editing 零样本文本引导音乐编辑：Delta 去噪分数在数据空间优化（避免反演误差）+ 个性化概念 token + 分布偏移正则化 + 对比损失保持旋律，FAD/CLAP/MOS 全面最优	Xinlei Niu, Kin Wai Cheuk, Jing Zhang, Naoki Murata, Chieh-Hsin Lai, Michele Mancusi, Woosung Choi, Giorgio Fabbro, Wei-Hsiang Liao, Charles Patrick Martin, Yuki Mitsufuji	2025	arXiv 2025	音乐编辑扩散模型个性化生成	★ ★ ★ ★ ★
SR-Scientist: Scientific Equation Discovery With Agentic AI LLM 智能体自主发现科学方程：工具调用（数据分析 + 方程评估）+ 经验缓冲区 + GRPO 强化学习训练，跨 4 个学科比基线提升 6-35%	Shijie Xia, Yuhan Sun, Pengfei Liu	2025	arXiv 2025	AI智能体符号回归科学发现	★ ★ ★ ★ ★
SOE: Sample-Efficient Robot Policy Self-Improvement via On-Manifold Exploration 流形上探索的机器人策略自我改进：变分信息瓶颈学习紧凑潜在表示 + 双路径架构 + 用户引导转向，真实世界平均提升 50.8%	Yang Jin, Jun Lv, Han Xue, Wendi Chen, Chuan Wen, Cewu Lu	2025	arXiv 2025	机器人操控策略优化自我改进	★ ★ ★ ★ ★
SCALE: Selective Resource Allocation for Test-Time Mathematical Reasoning 受双过程认知理论启发的测试时资源分配：分解子问题 → 评估难度 → 选择性分配 System1/System2，AIME25 上 +13.75pp 且 token 减少 33-53%	Yang Xiao, Chunpu Xu, Ruifeng Yuan, Jiashuo Wang, Wenjie Li, Pengfei Liu	2025	arXiv 2025	推理扩展数学推理双过程理论	★ ★ ★ ★ ★
SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer 用 O(N) 线性注意力替代 O(N²) 注意力 + O(D²) 常量内存 KV Cache，2B 参数实现 720p 视频生成，比 Wan-14B 快 53×，训练成本仅 MovieGen 的 1%	Junsong Chen, Yuyang Zhao, Jincheng Yu, Ruihang Chu, Junyu Chen, Shuai Yang, et al.	2025	arXiv 2025	视频生成 Transformer	★ ★ ★ ★ ★
SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation 免训练 TrigFlow 变换 + sCM + LADD 混合蒸馏，实现 0.1s 生成 1024×1024 图像，FID 7.59，比 FLUX-schnell 快 10×	Junsong Chen, Shuchen Xue, Yuyang Zhao, Jincheng Yu, Sayak Paul, Junyu Chen, Dongyun Zou, Han Cai, Song Han, Enze Xie	2025	arXiv 2025	图像生成蒸馏	★ ★ ★ ★ ★
Training-Free Safe Denoisers for Safe Use of Diffusion Models 无需重训练的扩散模型安全去噪器：基于图像的不安全集合定义 + 理论推导安全去噪公式 + 与文本方法正交互补，ASR 降低 50%+ 且不损质量	Mingyu Kim, Dongjun Kim, Amman Yusuf, Stefano Ermon, Mi Jung Park	2025	arXiv 2025	扩散模型安全生成无需训练	★ ★ ★ ★ ★
RFG: Test-Time Scaling for Diffusion Large Language Model Reasoning with Reward-Free Guidance 扩散 LLM 的无奖励引导测试时缩放：策略/参考模型对数似然比做隐式奖励 + 逐步过程引导，无需训练奖励模型，HumanEval +9.2%，跨模型一致提升	Tianlang Chen, Minkai Xu, Jure Leskovec, Stefano Ermon	2025	arXiv 2025	扩散语言模型测试时缩放推理增强	★ ★ ★ ★ ★
reAR: Rethinking Visual Autoregressive Models via Generator-Tokenizer Consistency Regularization 视觉自回归模型的生成器-分词器一致性正则化：噪声上下文增强 + codebook 嵌入对齐，FID 3.02→1.86（461M 参数），即插即用兼容任意分词器	Qiyuan He, Yicong Li, Haotian Ye, Jinghao Wang, Xinyao Liao, Pheng-Ann Heng, Stefano Ermon, James Zou, Angela Yao	2025	arXiv 2025	图像生成自回归模型正则化	★ ★ ★ ★ ★
Diffusion Transformers with Representation Autoencoders 用冻结预训练编码器（DINO/SigLIP）+ 训练解码器替代 VAE，DiT 在语义丰富的高维潜在空间训练，FID 1.13 + 47× 训练加速	Boyang Zheng, Nanye Ma, Shengbang Tong, Saining Xie	2025	arXiv 2025	扩散模型图像生成表征学习	★ ★ ★ ★ ★
Radial Attention: O(n log n) Sparse Attention with Energy Decay for Long Video Generation 发现时空能量衰减现象，设计 O(n log n) 静态稀疏注意力 mask，长视频生成 4× 加速 + 88% 稀疏率，质量几乎无损	Xingyang Li, Muyang Li, Tianle Cai, Haocheng Xi, Shuo Yang, Yujun Lin, Lvmin Zhang, Songlin Yang, Jinbo Hu, Kelly Peng, Maneesh Agrawala, Ion Stoica, Kurt Keutzer, Song Han	2025	NeurIPS 2025	视频生成注意力机制	★ ★ ★ ★ ★
ProjDevBench: Benchmarking AI Coding Agents on End-to-End Project Development 首个端到端项目开发基准：20 个多文件 C++ 项目，OJ 执行测试 + LLM 代码审查，6 大智能体整体通过率仅 27.38%，系统性揭示规格对齐/边界处理/复杂度优化/资源管理四大失败模式	Pengrui Lu, Shiqi Zhang, Yunzhong Hou, Lyumanshan Ye, Chaoyi Huang, Zixi Chen, Ji Zeng, Hantao Jiang, Pengfei Liu, Yiwei Wang, Ming-Hsuan Yang	2025	ICML 2025	AI编程基准测试代码智能体	★ ★ ★ ★ ★
One-step Latent-free Image Generation with Pixel Mean Flows 提出像素 MeanFlow (pMF)，分离预测空间与损失空间，实现单步无潜在空间图像生成，ImageNet 256×256 达到 FID 2.22	Yiyang Lu, Susie Lu, Qiao Sun, Hanhong Zhao, Zhicheng Jiang, Xianbang Wang, Tianhong Li, Zhengyang Geng, Kaiming He	2025	ICML 2025	图像生成 Transformer	★ ★ ★ ★ ★
Improving Diffusion Language Model Decoding through Joint Search in Generation Order and Token Space 扩散语言模型的联合搜索解码（OTS）：同时搜索生成顺序和 token 选择 + 增量似然估计器 + 块级扩散降低复杂度，GSM8K/MATH/HumanEval 提升 3-8%	Yangyi Shen, Tianjian Feng, Jiaqi Han, Wen Wang, Tianlang Chen, Chunhua Shen, Jure Leskovec, Stefano Ermon	2025	arXiv 2025	扩散语言模型解码策略测试时搜索	★ ★ ★ ★ ★
Is Noise Conditioning Necessary for Denoising Generative Models? 挑战噪声条件化的必要性：大多数扩散模型去掉噪声级别输入后仍能工作甚至更好，并给出理论解释	Qiao Sun, Zhicheng Jiang, Hanhong Zhao, Kaiming He	2025	arXiv 2025	图像生成 CNN	★ ★ ★ ★ ★
Fostering Video Reasoning via Next-Event Prediction 下一事件预测（NEP）自监督任务增强视频时序推理：从过去帧预测未来事件描述，无需人工标注，时序基准提升 3.8%	Haonan Wang, Hongfu Liu, Xiangyan Liu, Chao Du, Kenji Kawaguchi, Ye Wang, Tianyu Pang	2025	arXiv 2025	视频理解多模态	★ ★ ★ ★ ★
NEO: From Pixels to Words – Towards Native Vision-Language Primitives at Scale 原生视觉语言模型：轻量卷积 patch embedding + Pre-Buffer 层 + Native-RoPE + 混合注意力掩码，仅 390M 图文数据从零训练视觉能力	Haiwen Diao, Mingxuan Li, Silei Wu, Linjun Dai, Xiaohua Wang, Hanming Deng, Lewei Lu, Dahua Lin, Ziwei Liu	2025	arXiv 2025	多模态 Transformer	★ ★ ★ ★ ★
From Next-Token to Next-Block: A Principled Adaptation Path for Diffusion LLMs AR→扩散 LLM 的原则性适配路径：上下文因果注意力 + 辅助 AR 损失 + 渐进式块增长课程，NBDiff-7B 在 7B 级 DLM 中 SOTA（宏观平均 79.9%），仅需 ~700B 额外 token	Yuchuan Tian, Yuchen Liang, Shuo Zhang, Yingte Shu, Guangwen Yang, Wei He, Sibo Fang, Tianyu Guo, Kai Han, Chao Xu, Hanting Chen, Xinghao Chen, Yunhe Wang	2025	arXiv 2025	扩散语言模型模型适配块扩散	★ ★ ★ ★ ★
MOLEXA: Generative Modeling Enables Molecular Structure Retrieval from Coulomb Explosion Imaging 扩散 Transformer 从库仑爆炸成像反演分子结构：带记忆的 Transformer + 条件扩散去噪 + 两阶段训练（粗糙→精细），MAE < 1 Bohr radius，首次实现 >4 原子分子的实时结构重建	Xiang Li, Till Jahnke, Rebecca Boll, Jiaqi Han, Minkai Xu, Stefano Ermon, Phay J. Ho	2025	arXiv 2025	分子结构扩散模型科学应用	★ ★ ★ ★ ★
MeanFlow Transformers with Representation Autoencoders MeanFlow + RAE 的高效少步生成：DiT^DH 时间差编码 + CMT 中间训练 + MFD 有限差分蒸馏，1-step FID 2.03（ImageNet 256），训练成本降 6×，GFLOPS 降 38%	Zheyuan Hu, Chieh-Hsin Lai, Ge Wu, Yuki Mitsufuji, Stefano Ermon	2025	arXiv 2025	图像生成流匹配表示自编码器	★ ★ ★ ★ ★
MemAgent: Reshaping Long-Context LLM with Multi-Conv RL-based Memory Agent 固定长度 token 记忆 + 分段读写 + Multi-Conv DAPO 强化学习，32K 训练外推至 3.5M token，精度衰减 <5%，O(N) 线性复杂度	ByteDance Seed, Tsinghua University AIR, SIA-Lab	2025	arXiv 2025	长上下文强化学习记忆机制	★ ★ ★ ★ ★
Mean Flows for One-step Generative Modeling 引入平均速度概念替代瞬时速度，实现单步生成 FID 3.43，无需预训练/蒸馏/课程学习	Zhengyang Geng, Mingyang Deng, Xingjian Bai, J. Zico Kolter, Kaiming He	2025	arXiv 2025	图像生成 Transformer	★ ★ ★ ★ ★
Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight 解耦视觉预见（DVF）的通用 VLA 模型：meta queries + 扩散 Transformer 将未来帧预测与动作学习分离，LIBERO 96.7% 成功率，真实世界超越 π₀.₅	Yi Yang, Xueqi Li, Yiyang Chen, Jin Song, Yihan Wang, Zipeng Xiao, Jiadi Su, You Qiaoben, Pengfei Liu, Zhijie Deng	2025	arXiv 2025	机器人操控 VLA模型视觉预测	★ ★ ★ ★ ★
LLaDA: Large Language Diffusion with mAsking 首个 8B 规模掩码扩散语言模型，证明生成建模原则（而非自回归形式）才是 LLM 能力的根基，在推理任务上打破逆向诅咒	Shen Nie, Fengqi Zhu, Zebin You, Xiaolu Zhang, Jingyang Ou, Jun Hu, Jun Zhou, Yankai Lin, Ji-Rong Wen, Chongxuan Li	2025	arXiv 2025	扩散模型 LLM	★ ★ ★ ★ ★
LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning 首个纯扩散多模态语言模型：LLaDA-8B + SigLIP2 视觉编码器 + MLP 连接器，在知识推理任务上展现更优的数据扩展性	Zebin You, Shen Nie, Xiaolu Zhang, Jun Hu, Jun Zhou, Zhiwu Lu, Ji-Rong Wen, Chongxuan Li	2025	arXiv 2025	扩散模型多模态	★ ★ ★ ★ ★
LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation 改进 on-policy 蒸馏实现实时多模态交互视频生成：条件质量优化 + 收敛 ODE 初始化 + 激进优化调度，20× 加速至 24.82 FPS，多轮对话中超越 Veo3/Sora2	Ethan Chern, Zhulin Hu, Bohao Tang, Jiadi Su, Steffi Chern, Zhijie Deng, Pengfei Liu	2025	arXiv 2025	视频生成扩散模型蒸馏实时交互	★ ★ ★ ★ ★
LIMI: Less is More for Agency 仅 78 条精选演示训练出超越万级数据模型的智能体：AgencyBench 73.5%，比 10000 条数据训练高 53.7pp，数据策展 > 数据规模	Yang Xiao, Mohan Jiang, Jie Sun, Keyu Li, Pengfei Liu	2025	arXiv 2025	AI智能体数据效率微调训练	★ ★ ★ ★ ★
Back to Basics: Let Denoising Generative Models Denoise 基于流形假设提出 JiT：ViT 直接在像素空间做 x-prediction，无需 tokenizer/预训练/辅助损失，ImageNet 256 FID 1.82	Tianhong Li, Kaiming He	2025	arXiv 2025	图像生成 Transformer	★ ★ ★ ★ ★
Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps 推理时通过搜索更好的噪声样本（而非增加去噪步数）来扩展扩散模型：验证器 × 搜索算法框架，小模型+搜索可超越大模型	Nanye Ma, Shangyuan Tong, Haolin Jia, Hexiang Hu, Yu-Chuan Su, Mingda Zhang, Xuan Yang, Yandong Li, Tommi Jaakkola, Xuhui Jia, Saining Xie	2025	arXiv 2025	扩散模型推理扩展图像生成	★ ★ ★ ★ ★
Improved Mean Flows: On the Challenges of Fastforward Generative Models 针对 MeanFlow 的三大挑战提出改进：v-loss 重参数化、灵活 CFG 条件化、高效上下文条件化，ImageNet 256×256 单步 FID 1.72	Zhengyang Geng, Yiyang Lu, Zongze Wu, Eli Shechtman, J. Zico Kolter, Kaiming He	2025	arXiv 2025	图像生成 Transformer	★ ★ ★ ★ ★
ImplicitRDP: An End-to-End Visual-Force Diffusion Policy with Structural Slow-Fast Learning 端到端视觉-力觉扩散策略：结构化慢-快学习（因果注意力处理异步视觉/力信号）+ 虚拟目标表征正则化（防止模态坍塌），翻箱 18/20、拨开关 18/20	Wendi Chen, Han Xue, Yi Wang, Fangyuan Zhou, Jun Lv, Yang Jin, Shirun Tang, Chuan Wen, Cewu Lu	2025	arXiv 2025	机器人操控扩散策略力控制	★ ★ ★ ★ ★
Huxley-Gödel Machine: Human-Level Coding Agent Development by an Approximation of the Optimal Self-Improving Machine 发现元生产力-性能不匹配问题，提出 Clade-Metaproductivity (CMP) 指标指导 Agent 树搜索演化，SWE-bench 达人类水平 61.4%	Wenyi Wang, Piotr Piękos, Li Nanbo, Firas Laakom, Yimeng Chen, Mateusz Ostaszewski, Mingchen Zhuge, Jürgen Schmidhuber	2025	arXiv 2025	LLM Agent 自我改进	★ ★ ★ ★ ★
Guda: Counterfactual Group-wise Training Data Attribution for Diffusion Models via Unlearning 基于机器遗忘的扩散模型组级数据归因：用遗忘近似 Leave-One-Group-Out 反事实，ELBO 差值评分，比 LOGO 快 ~100×，Top-1 准确率 72.7%	Naoki Murata, Yuhta Takida, Chieh-Hsin Lai, Toshimitsu Uesaka, Bac Nguyen, Stefano Ermon, Yuki Mitsufuji	2025	arXiv 2025	扩散模型数据归因机器遗忘	★ ★ ★ ★ ★
GRACE: Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation 可执行解析概念（EAC）桥接 VLM 语义推理与精确机器人操控：几何概念资产 + 结构蓝图 + 操控蓝图，零样本成功率 86-90%，比 SoFar 高 28-30pp	Mingyang Sun, Jiude Wei, Qichen He, Donglin Wang, Cewu Lu, Jianhua Sun	2025	arXiv 2025	机器人操控视觉语言模型零样本泛化	★ ★ ★ ★ ★
GenDexHand: Generative Simulation for Dexterous Hands 首个灵巧手生成式仿真流水线：LLM 提议任务 + MLLM 迭代校验场景 + 子任务分解 + 运动规划/RL 混合控制，成功率提升 53.4%	Feng Chen, Zhuxiu Xu, Tianzhe Chu, Xunzhe Zhou, Li Sun, Zewen Wu, Shenghua Gao, Zhongyu Li, Yanchao Yang, Yi Ma	2025	arXiv 2025	机器人操控灵巧手仿真生成	★ ★ ★ ★ ★
FSGlove: An Inertial-Based Hand Tracking System with Shape-Aware Calibration 16 个 IMU 捕获 48 自由度手部运动 + 可微校准框架 DiffHCal 同时估计关节角/手形/传感器安装误差，关节角误差 <2.7°，指尖接触误差 15.7mm，成本仅 $426	Yutong Li, Jieyi Zhang, Wenqiang Xu, Tutian Tang, Cewu Lu	2025	arXiv 2025	手部追踪 IMU 可微优化	★ ★ ★ ★ ★
ESPO: Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective 扩散 LLM 的原则性 RL 训练：序列级策略优化 + ELBO 作似然代理 + k₂ KL 估计器，Countdown 提升 62pp，Sudoku 提升 70pp，解决 token 级分解的理论缺陷	Jingyang Ou, Jiaqi Han, Minkai Xu, Shaoxuan Xu, Jianwen Xie, Stefano Ermon, Yi Wu, Chongxuan Li	2025	arXiv 2025	扩散语言模型强化学习后训练	★ ★ ★ ★ ★
Energy Scaling Laws for Diffusion Models: Quantifying Compute and Carbon Emissions in Image Generation 扩散模型推理能耗的缩放定律：FLOPs 分解（文本编码 + 去噪 + 解码）+ 对数线性回归，跨架构 R² > 0.9，去噪占 90%+ 能耗，fp32 比 fp16 贵 ~7.4×	Aniketh Iyengar, Jiaqi Han, Boris Ruf, Vincent Grari, Marcin Detyniecki, Stefano Ermon	2025	arXiv 2025	扩散模型能耗分析缩放定律	★ ★ ★ ★ ★
EgoTwin: Dreaming Body and View in First Person 联合第一人称视频和人体运动生成：头部中心表示 + 前向/逆向动力学注意力掩码 + 异步扩散，视角-运动对齐误差降 70%	Jingqiao Xiu, Fangzhou Hong, Yicong Li, Mengze Li, Wentao Wang, Sirui Han, Liang Pan, Ziwei Liu	2025	arXiv 2025	视频生成人体运动	★ ★ ★ ★ ★
EARL: Efficient Agentic Reinforcement Learning Systems for Large Language Models 智能体 RL 训练的系统优化：动态并行度选择器（防 OOM）+ 布局感知数据分发器（all-to-all 替代中心化聚合），128 GPU 上延迟降低 9.7-11.2×	Zheyue Tan, Mustapha Abdullahi, Tuo Shi, Huining Yuan, Zelai Xu, Chao Yu, Boxun Li, Bo Zhao	2025	arXiv 2025	强化学习系统优化分布式训练	★ ★ ★ ★ ★
Generative Modeling via Drifting 提出 Drifting Models 新范式，在训练时演化 pushforward 分布，实现单步生成，ImageNet 256×256 达到 FID 1.54	Mingyang Deng, He Li, Tianhong Li, Yilun Du, Kaiming He	2025	arXiv 2025	图像生成自监督学习	★ ★ ★ ★ ★
Scaling Diffusion Transformers Efficiently via μP 将 μP（最大更新参数化）从标准 Transformer 扩展到扩散 Transformer，实现超参数从小模型到大模型的零成本迁移，DiT-XL 收敛加速 2.9×	Chenyu Zheng, Xinyu Zhang, Rongzhen Wang, Wei Huang, Zhi Tian, Weilin Huang, Jun Zhu, Chongxuan Li	2025	NeurIPS 2025	图像生成 Transformer 训练优化	★ ★ ★ ★ ★
Diffuse and Disperse: Image Generation with Representation Regularization 提出 Dispersive Loss——无需正样本对的对比学习正则化，无需预训练/额外参数/外部数据，一致提升扩散模型质量	Runqian Wang, Kaiming He	2025	arXiv 2025	图像生成自监督学习	★ ★ ★ ★ ★
DiffGen: Robot Demonstration Generation via Differentiable Physics Simulation, Differentiable Rendering, and Vision-Language Model 可微物理仿真 + 可微渲染 + VLM 端到端优化机器人轨迹：语言指令→余弦相似度损失→梯度反传生成演示，比 RL 快 500×，跨机器人迁移成功率 84%	Yang Jin, Jun Lv, Shuqiang Jiang, Cewu Lu	2025	arXiv 2025	机器人操控可微仿真视觉语言模型	★ ★ ★ ★ ★
Demystifying Reinforcement Learning in Agentic Reasoning 智能体 RL 的系统性拆解：真实轨迹 vs 合成轨迹（差距巨大）+ clip 放宽 + 超长奖励塑形 + 深思式推理优于频繁调用，4B 模型匹敌 14B-32B	Zhaochen Yu, Ling Yang, Jiaru Zou, Shuicheng Yan, Mengdi Wang	2025	arXiv 2025	智能体强化学习工具使用	★ ★ ★ ★ ★
DC-VideoGen: Efficient Video Generation with Deep Compression Video Autoencoder 后训练加速框架：Deep Compression Video AE (DC-AE-V) 实现 384× 压缩率 + AE-Adapt-V 轻量适配，单卡 H100 生成 720p 视频加速 7.7×	Junyu Chen, Wenkun He, Yuchao Gu, Yuyang Zhao, Jincheng Yu, Junsong Chen, Dongyun Zou, Yujun Lin, Zhekai Zhang, Muyang Li, Haocheng Xi, Ligeng Zhu, Enze Xie, Song Han, Han Cai	2025	arXiv 2025	视频生成 Transformer	★ ★ ★ ★ ★
DC-Gen: Post-Training Diffusion Acceleration with Deeply Compressed Latent Space 后训练扩散加速：Embedding 对齐 + LoRA 微调将预训练 DiT 迁移到高压缩 AE，4K 生成加速 53×，训练成本降 520×	Wenkun He, Yuchao Gu, Junyu Chen, Dongyun Zou, Yujun Lin, Zhekai Zhang, Haocheng Xi, Muyang Li, Ligeng Zhu, Jincheng Yu, Junsong Chen, Enze Xie, Song Han, Han Cai	2025	arXiv 2025	图像生成 Transformer	★ ★ ★ ★ ★
DC-AR: Efficient Masked Autoregressive Image Generation with Deep Compression Hybrid Tokenizer 混合 tokenizer (DC-HT)：离散 token 捕获结构 + 连续残差 token 捕获细节，32× 压缩率下 12 步 MaskGIT 采样达 gFID 5.49	Yecheng Wu, Junyu Chen, Zhuoyang Zhang, Enze Xie, Jincheng Yu, Junsong Chen, Jinyi Hu, Yao Lu, Song Han, Han Cai	2025	arXiv 2025	图像生成 Transformer	★ ★ ★ ★ ★
DC-AE 1.5: Accelerating Diffusion Model Convergence with Structured Latent Space 解决高通道数 latent 空间导致扩散模型收敛慢的问题：结构化 latent 空间 + 增强扩散训练，UViT-H 收敛加速 6×	Junyu Chen, Dongyun Zou, Wenkun He, Junsong Chen, Enze Xie, Song Han, Han Cai	2025	arXiv 2025	图像生成自编码器	★ ★ ★ ★ ★
Darwin Gödel Machine: Open-Ended Evolution of Self-Improving Agents 提出 Darwin Gödel Machine：维护 Agent 群体档案，通过开放式演化实现自我改进编码 Agent，SWE-bench 从 20% 提升至 50%	Jenny Zhang, Shengran Hu, Cong Lu, Robert Lange, Jeff Clune	2025	arXiv 2025	LLM Agent 自我改进	★ ★ ★ ★ ★
CudaForge: An Agent Framework with Hardware Feedback for CUDA Kernel Optimization 双 Agent 框架 + Nsight Compute 硬件反馈，无需训练，CUDA kernel 平均 1.77× 加速，每 kernel 仅 $0.30/26.5 分钟	Zijian Zhang, Rong Wang, Shiyang Li, Yuebo Luo, Mingyi Hong, Caiwen Ding	2025	arXiv 2025	LLM Agent CUDA优化	★ ★ ★ ★ ★
CMT: Mid-Training for Efficient Learning of Consistency, Mean Flow, and Flow Map Models 扩散模型的中间训练阶段：用预训练教师的轨迹点做固定回归目标初始化一致性/流映射模型，2-step FID 1.97/1.32/1.84，训练成本降低 50-98%	Zheyuan Hu, Chieh-Hsin Lai, Yuki Mitsufuji, Stefano Ermon	2025	arXiv 2025	扩散模型一致性模型训练效率	★ ★ ★ ★ ★
Bidirectional Normalizing Flow: From Data to Noise and Back 提出双向归一化流 BiFlow，用可学习反向模型替代精确解析逆，相比因果解码加速 100 倍，NF 方法中 SOTA	Yiyang Lu, Qiao Sun, Xianbang Wang, Zhicheng Jiang, Hanhong Zhao, Kaiming He	2025	arXiv 2025	图像生成 Transformer	★ ★ ★ ★ ★
ArtGS: 3D Gaussian Splatting for Interactive Visual-Physical Modeling of Articulated Objects 3DGS + VLM 推理铰接骨骼 + 可微渲染闭环优化关节参数，关节轴误差 1-3°，操控成功率 62-90%，支持跨机器人部署	Qiaojun Yu, Xibin Yuan, Yu Jiang, Junting Chen, Dongzhe Zheng, Ce Hao, Yang You, Yixing Chen, Yao Mu, Liu Liu, Cewu Lu	2025	arXiv 2025	3D重建高斯溅射机器人操控	★ ★ ★ ★ ★
ARC Is a Vision Problem! 将 ARC 抽象推理基准重新定义为视觉问题，用 ViT + 测试时训练达到 60.4% 准确率，匹配人类水平	Keya Hu, Ali Cy, Linlu Qiu, Xiaoman Delores Ding, Runqian Wang, Yeyin Eva Zhu, Jacob Andreas, Kaiming He	2025	arXiv 2025	图像分类 Transformer	★ ★ ★ ★ ★
Apollo: Asynchronous Rollout with Guidance for Agent Optimization 异步人类引导 + 动作级数据过滤训练 LLM 智能体：标注员仅在轨迹偏离时介入，监督控制机制过滤不可靠动作，InnovatorBench 上比未训练基线提升 50%+	Dayuan Fu, Yunze Wu, Xiaojie Cai, Lyumanshan Ye, Shijie Xia, Zhen Huang, Weiye Si, Tianze Xu, Jie Sun, Keyu Li, Mohan Jiang, Junfei Wang, Qishuo Hua, Pengrui Lu, Yang Xiao, Pengfei Liu	2025	arXiv 2025	AI智能体人机协作微调训练	★ ★ ★ ★ ★
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey 智能体 RL 综述：从 PBRFT（单步 MDP）到 Agentic RL（多步 POMDP）的范式转变，六大能力分类（规划/工具/记忆/推理/自改进/感知），涵盖 500+ 篇文献	Guibin Zhang, Hejia Geng, Xiaohang Yu, Zhenfei Yin, Heng Ji, Jun Wang, Shuicheng Yan, Philip Torr, et al.	2025	Transactions on Machine Learning Research 2025	综述智能体强化学习	★ ★ ★ ★ ★
Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models 提出 ACE 框架解决上下文优化中的简洁偏差和上下文坍缩问题，通过 Generator-Reflector-Curator 三组件架构实现上下文渐进演化	Qizheng Zhang, Changran Hu, Shubhangi Upasani, Boyuan Ma, Fenglu Hong, Vamsidhar Kamanuru, Jay Rainton, Chen Wu, Mengmeng Ji, Hanchen Li, Urmish Thakker, James Zou, Kunle Olukotun	2025	ICLR 2026	LLM Agent 上下文工程	★ ★ ★ ★ ★
A-MEM: Agentic Memory for LLM Agents Zettelkasten 启发的智能体记忆系统：原子笔记 + 动态链接 + 记忆进化，时序推理 F1 提升 80%，token 用量减少 85-93%，百万级记忆检索 <4μs	Wujiang Xu, Zujie Liang, Kai Mei, Hang Gao, Juntao Tan, Yongfeng Zhang	2025	NeurIPS 2025	智能体记忆管理知识图谱	★ ★ ★ ★ ★
Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces VSI-Bench：5000+ QA 对评测多模态模型的视觉空间智能，发现空间推理是主要瓶颈（71% 错误），语言推理技巧反而有害，认知地图可改善距离推理	Jihan Yang, Shusheng Yang, Anjali W. Gupta, Rilyn Han, Li Fei-Fei, Saining Xie	2024	arXiv 2024	多模态空间智能基准测试	★ ★ ★ ★ ★
SoundCTM: Uniting Score-based and Consistency Models for Text-to-Sound Generation 文本到声音的一致性轨迹模型：教师网络做特征提取器 + 灵活 CFG 训练 + ν 插值采样，1 步 FAD 2.08 超 ConsistencyTTA，16 步 FAD 1.38 超扩散教师	Koichi Saito, Dongjun Kim, Takashi Shibuya, Chieh-Hsin Lai, Zhi Zhong, Yuhta Takida, Yuki Mitsufuji	2024	arXiv 2024	音频生成一致性模型扩散模型	★ ★ ★ ★ ★
SKT: Integrating State-Aware Keypoint Trajectories with Vision-Language Models for Robotic Garment Manipulation 统一 VLM 做多类衣物操控：状态感知成对关键点表征 + 大规模合成数据集 + 两阶段微调（关键点检测→动作轨迹生成），关键点距离误差比专用模型低 40-60%	Xin Li, Siyuan Huang, Qiaojun Yu, Zhengkai Jiang, Ce Hao, Yimeng Zhu, Hongsheng Li, Peng Gao, Cewu Lu	2024	arXiv 2024	机器人操控视觉语言模型衣物操控	★ ★ ★ ★ ★
Simplifying, Stabilizing & Scaling Continuous-Time Consistency Models 统一 TrigFlow 框架 + 切线归一化/自适应加权/双重归一化等稳定化技术，首次将连续时间一致性模型扩展到 1.5B 参数，2 步采样 ImageNet 512 FID 1.88	Cheng Lu, Yang Song	2024	arXiv 2024	扩散模型一致性模型图像生成	★ ★ ★ ★ ★
Sana: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers 全栈高效 T2I 系统：32× 压缩 AE + 线性注意力 DiT + Decoder-only LLM 文本编码器 + Flow-DPM-Solver，4K 生成比 FLUX 快 100×	Enze Xie, Junsong Chen, Junyu Chen, Han Cai, Haotian Tang, Yujun Lin, Zhekai Zhang, Muyang Li, Ligeng Zhu, Yao Lu, Song Han	2024	arXiv 2024	图像生成 Transformer	★ ★ ★ ★ ★
Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning 用 RL（PPO）微调 VLM 做多步决策智能体：CoT 推理 + 文本动作 → 环境执行 → 任务奖励优化，7B 模型超越 GPT-4V	Yuexiang Zhai, Hao Bai, Zipeng Lin, Jiayi Pan, Shengbang Tong, Yifei Zhou, Alane Suhr, Saining Xie, Yann LeCun, Yi Ma, Sergey Levine	2024	arXiv 2024	多模态强化学习决策智能体	★ ★ ★ ★ ★
RegionGPT: Towards Region Understanding Vision Language Model 区域级视觉语言理解：反卷积特征细化 + Mask Pooling 区域编码 + GPT 辅助生成 87 词/区域的详细描述，mAP 70.0	Qiushan Guo, Shalini De Mello, Hongxu Yin, Wonmin Byeon, Ka Chun Cheung, Yizhou Yu, Ping Luo, Sifei Liu	2024	arXiv 2024	多模态区域理解	★ ★ ★ ★ ★
Lessons from Learning to Spin Pens 三阶段学习笔旋转：仿真 RL 训练 Oracle + 本体感受预训练 + 不到 50 条真实轨迹微调，首次实现灵巧手多圈连续笔旋转	Jun Wang, Ying Yuan, Haichuan Che, Haozhi Qi, Yi Ma, Jitendra Malik, Xiaolong Wang	2024	arXiv 2024	机器人操控灵巧手 Sim-to-Real	★ ★ ★ ★ ★
OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models 以 PTQ 效率达到 QAT 性能：可学习权重裁剪（LWC）+ 可学习等价变换（LET），单 A100 完成校准，W2A16 PPL 13.21（GPTQ 5500+）	Wenqi Shao, Mengzhao Chen, Zhaoyang Zhang, Peng Xu, Lirui Zhao, Zhiqian Li, Kaipeng Zhang, Peng Gao, Yu Qiao, Ping Luo	2024	arXiv 2024	模型量化 LLM推理	★ ★ ★ ★ ★
Mean-field Chaos Diffusion Models 平均场混沌扩散模型：将高基数数据视为 N 粒子交互系统 + Wasserstein 变分方程 + 混沌熵细分策略，突破维度灾难，支持可变基数生成	Sungwoo Park, Dongjun Kim, Ahmed M. Alaa	2024	ICML 2024	扩散模型平均场理论高基数数据	★ ★ ★ ★ ★
Light-X: Generative 4D Video Rendering with Camera and Illumination Control 联合相机轨迹和光照控制的视频生成：动态点云解耦几何/运动，重光照帧解耦光照，Light-Syn 降质流水线合成训练数据	Tianqi Liu, Zhaoxi Chen, Zihao Huang, Shaocong Xu, Saining Zhang, Chongjie Ye, Bohan Li, Zhiguo Cao, Wei Li, Hao Zhao, Ziwei Liu	2024	arXiv 2024	视频生成 3D视觉	★ ★ ★ ★ ★
Deconstructing Denoising Diffusion Models for Self-Supervised Learning 系统解构扩散模型中哪些组件对表征学习真正重要：逐步去除现代组件，最终发现低维潜在空间 + 去噪目标是核心，得到接近 MAE 性能的极简 l-DAE	Xinlei Chen, Zhuang Liu, Saining Xie, Kaiming He	2024	arXiv 2024	自监督学习扩散模型表征学习	★ ★ ★ ★ ★
KAN: Kolmogorov-Arnold Networks 基于 Kolmogorov-Arnold 表示定理的新型网络：可学习激活函数在边上而非节点上，B-spline 参数化实现 α=4 的缩放指数，兼具精度与可解释性	Ziming Liu, Yixuan Wang, Sachin Vaidya, Fabian Ruehle, James Halverson, Marin Soljačić, Thomas Y. Hou, Max Tegmark	2024	arXiv 2024	神经网络架构科学发现	★ ★ ★ ★ ★
InfiniteWorld: A Unified Scalable Simulation Framework for General Visual-Language Robot Interaction 基于 Isaac Sim 的统一具身 AI 仿真框架：生成式 3D 资产构建 + Real2Sim + 自动标注 + 4 个基准（导航/操作/协作探索/社交操作），揭示 VLM 在具身任务中的根本局限	Pengzhen Ren, et al.	2024	arXiv 2024	具身智能仿真平台多智能体	★ ★ ★ ★ ★
Grendel-GS: On Scaling Up 3D Gaussian Splatting Training 首个多 GPU 分布式 3DGS 训练系统：稀疏 All-to-All 通信 + 动态负载均衡 + sqrt(batch) 超参缩放规则，16 GPU 支持 4000 万高斯，4K 场景 PSNR 27.28	Hexu Zhao, Haoyang Weng, Daohan Lu, Ang Li, Jinyang Li, Aurojit Panda, Saining Xie	2024	arXiv 2024	3D重建高斯溅射分布式训练	★ ★ ★ ★ ★
Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement 提出自引用递归自我改进框架：LLM Agent 通过 monkey patching 在运行时修改自身代码，同时改进策略 π 和学习算法 I	Xunjian Yin, Xinyi Wang, Liangming Pan, Li Lin, Xiaojun Wan, William Yang Wang	2024	arXiv 2024	LLM Agent 自我改进	★ ★ ★ ★ ★
GeoSplatting: Towards Geometry Guided Gaussian Splatting for Physically-based Inverse Rendering 显式网格几何引导 3DGS 逆渲染：MGadapter 将网格三角面映射为高斯点 + 基于 BVH 的二值遮挡 + GGX BRDF，重光照 PSNR 超基线 3.1dB，训练仅 14 分钟	Kai Ye, Chong Gao, Guanbin Li, Wenzheng Chen, Baoquan Chen	2024	arXiv 2024	3D重建高斯溅射逆渲染	★ ★ ★ ★ ★
DexFlyWheel: A Scalable and Self-improving Data Generation Framework for Dexterous Manipulation 两阶段飞轮框架：从单个人类示范出发，通过模仿学习+残差强化学习+数据增强的自我改进循环，生成2000+高质量灵巧操控轨迹	Kefei Zhu, Fengshuo Bai, YuanHao Xiang, Yishuai Cai, Xinglin Chen, Ruochong Li, Xingtao Wang, Hao Dong, Yaodong Yang, Xiaopeng Fan, Yuanpei Chen	2024	arXiv 2024	机器人操控模仿学习	★ ★ ★ ★ ★
Dexterous Manipulation Based on Prior Dexterous Grasp Pose Knowledge 两阶段灵巧操控：功能部位抓取姿态先验 + RL 精细操控，学习效率提升 80-150×，成功率比 DexArt 高 15-29pp，真实世界 74-79%	Hengxu Yan, Haoshu Fang, Cewu Lu	2024	arXiv 2024	灵巧手机器人操控强化学习	★ ★ ★ ★ ★
DAPS: Decoupled Annealing Posterior Sampling 解耦扩散采样步间依赖 + 退火式 MCMC 后验采样，在非线性逆问题（相位恢复）上比 DPS 高 13dB PSNR	Bingliang Zhang, Wenda Chu, Julius Berner, Chenlin Meng, Anima Anandkumar, Yang Song	2024	arXiv 2024	扩散模型逆问题图像恢复	★ ★ ★ ★ ★
Cambrian-S: Towards Spatial Supersensing in Video 提出空间超感知四阶段发展框架 + VSI-Super 基准（长程回忆/持续计数），训练 Cambrian-S 在 VSI-Bench 提升 30%，并通过预测式感知（惊讶驱动记忆）应对超长视频	Shusheng Yang, Jihan Yang, Pinzhi Huang, Ellis Brown, Zihao Yang, Yue Yu, Shengbang Tong, Zihan Zheng, Yifan Xu, Muhan Wang, Daohan Lu, Rob Fergus, Yann LeCun, Li Fei-Fei, Saining Xie	2024	arXiv 2024	多模态视频理解空间智能	★ ★ ★ ★ ★
SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution 可解释的分层规划：向量量化学习离散技能表示 + 技能条件扩散生成状态轨迹 + 逆动力学解码动作，组合任务成功率 25.2%	Zhixuan Liang, Yao Mu, Hengbo Ma, Masayoshi Tomizuka, Mingyu Ding, Ping Luo	2023	arXiv 2023	机器人规划扩散模型	★ ★ ★ ★ ★
GenTron: Diffusion Transformers for Image and Video Generation 系统探索 Transformer 替代 U-Net 做文本到图像/视频扩散生成：cross-attention 优于 adaLN 做文本条件，Motion-Free Guidance 解决视频质量退化	Shoufa Chen, Mengmeng Xu, Jiawei Ren, Yuren Cong, Sen He, Yanping Xie, Animesh Sinha, Ping Luo, Tao Xiang, Juan-Manuel Perez-Rua	2023	arXiv 2023	图像生成视频生成 Transformer	★ ★ ★ ★ ★
AWQ: Activation-aware Weight Quantization for On-Device LLM Compression and Acceleration 发现仅 1% 关键权重（由激活分布决定）即可大幅降低量化误差，提出免训练的 per-channel 缩放方法，INT4 量化几乎无损	Ji Lin, Jiaming Tang, Haotian Tang, Shang Yang, Wei-Ming Chen, Wei-Chen Wang, Guangxuan Xiao, Xingyu Dang, Chuang Gan, Song Han	2023	MLSys 2024	模型量化 LLM推理	★ ★ ★ ★ ★
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 首次将纯 Transformer 架构直接应用于图像分类任务，证明无需 CNN 也能达到 SOTA	Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, et al.	2021	ICLR 2021	Transformer 图像分类	★ ★ ★ ★ ★
End-to-End Object Detection with Transformers (DETR) 首个基于 Transformer 的端到端目标检测框架，去除了 NMS 和 anchor 等手工设计组件	Nicolas Carion, Francisco Massa, Gabriel Synnaeve, et al.	2020	ECCV 2020	目标检测 Transformer	★ ★ ★ ★ ★