Paper Reading Notes
个人论文阅读笔记归档
共 98 篇论文
| 标题 | 作者 | 年份 | 会议/期刊 | 标签 | 评分 |
|---|---|---|---|---|---|
|
SeeUPO: Sequence-Level Agentic-RL with Convergence Guarantees
多轮智能体 RL 的收敛性保证:证明 GRPO+PPO 在多轮场景下收敛性被破坏,提出逆序逐轮更新的 SeeUPO(反向归纳),Qwen3-14B 相对提升 43-55%
|
Tianyi Hu, Qingxu Fu, Yanxi Chen, Zhaoyang Liu, Bolin Ding | 2026 | arXiv 2026 | 智能体 强化学习 收敛保证 | ★ ★ ★ ★ ★ |
|
DLLM Agent: See Farther, Run Faster
扩散 LLM 作为智能体骨干:首次控制对比 DLLM vs AR 在相同框架下的行为差异,端到端速度提升 30%+,最高 8× 加速,更少工具调用 + 更强全局规划
|
Huiling Zhen, Weizhe Lin, Renxi Liu, Kai Han, Yiming Li, Yuchuan Tian, Hanting Chen, et al. | 2026 | arXiv 2026 | 扩散语言模型 智能体 工具使用 | ★ ★ ★ ★ ★ |
|
Diffusion In Diffusion: Reclaiming Global Coherence in Semi-Autoregressive Diffusion
块扩散的全局一致性修复:草稿-修正两阶段 + 快照置信度重掩码 + 混合尺度训练,困惑度 25.7→21.9,仅用基线 26% 微调预算
|
Linrui Ma, Yufei Cui, Kai Han, Yunhe Wang | 2026 | arXiv 2026 | 扩散语言模型 块扩散 全局一致性 | ★ ★ ★ ★ ★ |
|
Deferred Commitment Decoding for Diffusion Language Models
扩散 LLM 的延迟承诺解码:识别块边界上下文截断(BICT)问题,确定性感知滑动窗口 + 动态块扩展,无需训练,平均 +1.73% 准确率,最高 +16.5%
|
Yingte Shu, Yuchuan Tian, Chao Xu, Yunhe Wang, Hanting Chen | 2026 | arXiv 2026 | 扩散语言模型 解码策略 推理加速 | ★ ★ ★ ★ ★ |
|
Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents
统一长短期记忆管理的 LLM 智能体:6 种记忆工具(增删改查+摘要+过滤)+ 三阶段渐进式 RL + Step-wise GRPO,跨 5 个基准平均提升 4.8-8.6pp
|
Yi Yu, Liuyi Yao, Yuexiang Xie, Qingquan Tan, Jiaqi Feng, Yaliang Li, Libing Wu | 2026 | arXiv 2026 | 智能体 记忆管理 强化学习 | ★ ★ ★ ★ ★ |
|
Visual Jigsaw Post-Training Improves MLLMs
自监督视觉拼图后训练:将图像/视频/3D 打乱为 patch 让模型预测排列顺序,GRPO 训练提升细粒度感知,MMVP +6.0%
|
Penghao Wu, Yushan Zhang, Haiwen Diao, Bo Li, Lewei Lu, Ziwei Liu | 2025 | arXiv 2025 | 多模态 强化学习 | ★ ★ ★ ★ ★ |
|
Vid-CamEdit: Video Camera Trajectory Editing with Generative Rendering from Estimated Geometry
视频相机轨迹编辑:估计时序一致几何 + 光流条件生成渲染 + 分解微调避免 4D 数据,LPIPS/帧一致性全面最优,支持极端视角外推
|
Junyoung Seo, Jisang Han, Jaewoo Jung, Siyoon Jin, JoungBin Lee, Takuya Narihira, Kazumi Fukuda, Takashi Shibuya, Donghoon Ahn, Shoukang Hu, Seungryong Kim, Yuki Mitsufuji | 2025 | arXiv 2025 | 视频编辑 相机轨迹 3D重建 | ★ ★ ★ ★ ★ |
|
VFScale: Intrinsic Reasoning through Verifier-Free Test-time Scalable Diffusion Model
无需外部验证器的扩散模型测试时缩放:MRNCL 损失 + KL 正则化修正能量景观 + 混合 MCTS 搜索,6×6 训练外推至 15×15 迷宫达 88% 成功率
|
Tao Zhang, Jia-Shu Pan, Ruiqi Feng, Tailin Wu | 2025 | ICLR 2026 | 扩散模型 测试时缩放 推理增强 | ★ ★ ★ ★ ★ |
|
VeriFree: Reinforcing General Reasoning without Verifiers
无需验证器的通用推理 RL:用模型对参考答案的置信度替代二元验证奖励,方差更低,MMLU-Pro 提升 16.3%
|
Xiangxin Zhou, Zichen Liu, Anya Sims, Haonan Wang, Tianyu Pang, Chongxuan Li, Liang Wang, Min Lin, Chao Du | 2025 | arXiv 2025 | LLM推理 强化学习 | ★ ★ ★ ★ ★ |
|
Variational Reasoning for Language Models
将思维链视为隐变量、用变分推断优化:ELBO + IWAE 多轨迹界 + 前向 KL 后验训练,统一解释 RFT/RL/GRPO 的偏差来源
|
Xiangxin Zhou, Zichen Liu, Haonan Wang, Chao Du, Min Lin, Chongxuan Li, Liang Wang, Tianyu Pang | 2025 | arXiv 2025 | LLM推理 强化学习 | ★ ★ ★ ★ ★ |
|
Taming the Long-Tail: Efficient Reasoning RL Training with Adaptive Drafter
解决推理 RL 训练中长尾响应分布问题:自适应投机解码 + 机会性 draft 模型训练,实现 1.7-2.1× 加速且无损质量
|
Qinghao Hu, Shang Yang, Junxian Guo, Xiaozhe Yao, Yujun Lin, Yuxian Gu, Han Cai, Chuang Gan, Ana Klimovic, Song Han | 2025 | arXiv 2025 | RL训练 LLM推理 | ★ ★ ★ ★ ★ |
|
ThinkMerge: Think in Parallel, Answer as One
无训练即插即用解码策略:并行生成 K 条推理链,在同步点合并 logits 生成统一答案,代码任务 pass@1 提升 5.77%
|
Haonan Wang, Chao Du, Kenji Kawaguchi, Tianyu Pang | 2025 | arXiv 2025 | LLM推理 解码策略 | ★ ★ ★ ★ ★ |
|
StreamingVLM: Real-Time Understanding for Infinite Video Streams
统一训练-推理框架实现无限视频流实时理解:流式 KV cache 管理 + 连续 RoPE + 重叠块训练,8 FPS 实时解说
|
Ruyi Xu, Guangxuan Xiao, Yukang Chen, Liuning He, Kelly Peng, Yao Lu, Song Han | 2025 | arXiv 2025 | 视频理解 多模态 | ★ ★ ★ ★ ★ |
|
SteerMusic: Enhanced Musical Consistency for Zero-shot Text-Guided and Personalized Music Editing
零样本文本引导音乐编辑:Delta 去噪分数在数据空间优化(避免反演误差)+ 个性化概念 token + 分布偏移正则化 + 对比损失保持旋律,FAD/CLAP/MOS 全面最优
|
Xinlei Niu, Kin Wai Cheuk, Jing Zhang, Naoki Murata, Chieh-Hsin Lai, Michele Mancusi, Woosung Choi, Giorgio Fabbro, Wei-Hsiang Liao, Charles Patrick Martin, Yuki Mitsufuji | 2025 | arXiv 2025 | 音乐编辑 扩散模型 个性化生成 | ★ ★ ★ ★ ★ |
|
SR-Scientist: Scientific Equation Discovery With Agentic AI
LLM 智能体自主发现科学方程:工具调用(数据分析 + 方程评估)+ 经验缓冲区 + GRPO 强化学习训练,跨 4 个学科比基线提升 6-35%
|
Shijie Xia, Yuhan Sun, Pengfei Liu | 2025 | arXiv 2025 | AI智能体 符号回归 科学发现 | ★ ★ ★ ★ ★ |
|
SOE: Sample-Efficient Robot Policy Self-Improvement via On-Manifold Exploration
流形上探索的机器人策略自我改进:变分信息瓶颈学习紧凑潜在表示 + 双路径架构 + 用户引导转向,真实世界平均提升 50.8%
|
Yang Jin, Jun Lv, Han Xue, Wendi Chen, Chuan Wen, Cewu Lu | 2025 | arXiv 2025 | 机器人操控 策略优化 自我改进 | ★ ★ ★ ★ ★ |
|
SCALE: Selective Resource Allocation for Test-Time Mathematical Reasoning
受双过程认知理论启发的测试时资源分配:分解子问题 → 评估难度 → 选择性分配 System1/System2,AIME25 上 +13.75pp 且 token 减少 33-53%
|
Yang Xiao, Chunpu Xu, Ruifeng Yuan, Jiashuo Wang, Wenjie Li, Pengfei Liu | 2025 | arXiv 2025 | 推理扩展 数学推理 双过程理论 | ★ ★ ★ ★ ★ |
|
SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer
用 O(N) 线性注意力替代 O(N²) 注意力 + O(D²) 常量内存 KV Cache,2B 参数实现 720p 视频生成,比 Wan-14B 快 53×,训练成本仅 MovieGen 的 1%
|
Junsong Chen, Yuyang Zhao, Jincheng Yu, Ruihang Chu, Junyu Chen, Shuai Yang, et al. | 2025 | arXiv 2025 | 视频生成 Transformer | ★ ★ ★ ★ ★ |
|
SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation
免训练 TrigFlow 变换 + sCM + LADD 混合蒸馏,实现 0.1s 生成 1024×1024 图像,FID 7.59,比 FLUX-schnell 快 10×
|
Junsong Chen, Shuchen Xue, Yuyang Zhao, Jincheng Yu, Sayak Paul, Junyu Chen, Dongyun Zou, Han Cai, Song Han, Enze Xie | 2025 | arXiv 2025 | 图像生成 蒸馏 | ★ ★ ★ ★ ★ |
|
Training-Free Safe Denoisers for Safe Use of Diffusion Models
无需重训练的扩散模型安全去噪器:基于图像的不安全集合定义 + 理论推导安全去噪公式 + 与文本方法正交互补,ASR 降低 50%+ 且不损质量
|
Mingyu Kim, Dongjun Kim, Amman Yusuf, Stefano Ermon, Mi Jung Park | 2025 | arXiv 2025 | 扩散模型 安全生成 无需训练 | ★ ★ ★ ★ ★ |
|
RFG: Test-Time Scaling for Diffusion Large Language Model Reasoning with Reward-Free Guidance
扩散 LLM 的无奖励引导测试时缩放:策略/参考模型对数似然比做隐式奖励 + 逐步过程引导,无需训练奖励模型,HumanEval +9.2%,跨模型一致提升
|
Tianlang Chen, Minkai Xu, Jure Leskovec, Stefano Ermon | 2025 | arXiv 2025 | 扩散语言模型 测试时缩放 推理增强 | ★ ★ ★ ★ ★ |
|
reAR: Rethinking Visual Autoregressive Models via Generator-Tokenizer Consistency Regularization
视觉自回归模型的生成器-分词器一致性正则化:噪声上下文增强 + codebook 嵌入对齐,FID 3.02→1.86(461M 参数),即插即用兼容任意分词器
|
Qiyuan He, Yicong Li, Haotian Ye, Jinghao Wang, Xinyao Liao, Pheng-Ann Heng, Stefano Ermon, James Zou, Angela Yao | 2025 | arXiv 2025 | 图像生成 自回归模型 正则化 | ★ ★ ★ ★ ★ |
|
Diffusion Transformers with Representation Autoencoders
用冻结预训练编码器(DINO/SigLIP)+ 训练解码器替代 VAE,DiT 在语义丰富的高维潜在空间训练,FID 1.13 + 47× 训练加速
|
Boyang Zheng, Nanye Ma, Shengbang Tong, Saining Xie | 2025 | arXiv 2025 | 扩散模型 图像生成 表征学习 | ★ ★ ★ ★ ★ |
|
Radial Attention: O(n log n) Sparse Attention with Energy Decay for Long Video Generation
发现时空能量衰减现象,设计 O(n log n) 静态稀疏注意力 mask,长视频生成 4× 加速 + 88% 稀疏率,质量几乎无损
|
Xingyang Li, Muyang Li, Tianle Cai, Haocheng Xi, Shuo Yang, Yujun Lin, Lvmin Zhang, Songlin Yang, Jinbo Hu, Kelly Peng, Maneesh Agrawala, Ion Stoica, Kurt Keutzer, Song Han | 2025 | NeurIPS 2025 | 视频生成 注意力机制 | ★ ★ ★ ★ ★ |
|
ProjDevBench: Benchmarking AI Coding Agents on End-to-End Project Development
首个端到端项目开发基准:20 个多文件 C++ 项目,OJ 执行测试 + LLM 代码审查,6 大智能体整体通过率仅 27.38%,系统性揭示规格对齐/边界处理/复杂度优化/资源管理四大失败模式
|
Pengrui Lu, Shiqi Zhang, Yunzhong Hou, Lyumanshan Ye, Chaoyi Huang, Zixi Chen, Ji Zeng, Hantao Jiang, Pengfei Liu, Yiwei Wang, Ming-Hsuan Yang | 2025 | ICML 2025 | AI编程 基准测试 代码智能体 | ★ ★ ★ ★ ★ |
|
One-step Latent-free Image Generation with Pixel Mean Flows
提出像素 MeanFlow (pMF),分离预测空间与损失空间,实现单步无潜在空间图像生成,ImageNet 256×256 达到 FID 2.22
|
Yiyang Lu, Susie Lu, Qiao Sun, Hanhong Zhao, Zhicheng Jiang, Xianbang Wang, Tianhong Li, Zhengyang Geng, Kaiming He | 2025 | ICML 2025 | 图像生成 Transformer | ★ ★ ★ ★ ★ |
|
Improving Diffusion Language Model Decoding through Joint Search in Generation Order and Token Space
扩散语言模型的联合搜索解码(OTS):同时搜索生成顺序和 token 选择 + 增量似然估计器 + 块级扩散降低复杂度,GSM8K/MATH/HumanEval 提升 3-8%
|
Yangyi Shen, Tianjian Feng, Jiaqi Han, Wen Wang, Tianlang Chen, Chunhua Shen, Jure Leskovec, Stefano Ermon | 2025 | arXiv 2025 | 扩散语言模型 解码策略 测试时搜索 | ★ ★ ★ ★ ★ |
|
Is Noise Conditioning Necessary for Denoising Generative Models?
挑战噪声条件化的必要性:大多数扩散模型去掉噪声级别输入后仍能工作甚至更好,并给出理论解释
|
Qiao Sun, Zhicheng Jiang, Hanhong Zhao, Kaiming He | 2025 | arXiv 2025 | 图像生成 CNN | ★ ★ ★ ★ ★ |
|
Fostering Video Reasoning via Next-Event Prediction
下一事件预测(NEP)自监督任务增强视频时序推理:从过去帧预测未来事件描述,无需人工标注,时序基准提升 3.8%
|
Haonan Wang, Hongfu Liu, Xiangyan Liu, Chao Du, Kenji Kawaguchi, Ye Wang, Tianyu Pang | 2025 | arXiv 2025 | 视频理解 多模态 | ★ ★ ★ ★ ★ |
|
NEO: From Pixels to Words – Towards Native Vision-Language Primitives at Scale
原生视觉语言模型:轻量卷积 patch embedding + Pre-Buffer 层 + Native-RoPE + 混合注意力掩码,仅 390M 图文数据从零训练视觉能力
|
Haiwen Diao, Mingxuan Li, Silei Wu, Linjun Dai, Xiaohua Wang, Hanming Deng, Lewei Lu, Dahua Lin, Ziwei Liu | 2025 | arXiv 2025 | 多模态 Transformer | ★ ★ ★ ★ ★ |
|
From Next-Token to Next-Block: A Principled Adaptation Path for Diffusion LLMs
AR→扩散 LLM 的原则性适配路径:上下文因果注意力 + 辅助 AR 损失 + 渐进式块增长课程,NBDiff-7B 在 7B 级 DLM 中 SOTA(宏观平均 79.9%),仅需 ~700B 额外 token
|
Yuchuan Tian, Yuchen Liang, Shuo Zhang, Yingte Shu, Guangwen Yang, Wei He, Sibo Fang, Tianyu Guo, Kai Han, Chao Xu, Hanting Chen, Xinghao Chen, Yunhe Wang | 2025 | arXiv 2025 | 扩散语言模型 模型适配 块扩散 | ★ ★ ★ ★ ★ |
|
MOLEXA: Generative Modeling Enables Molecular Structure Retrieval from Coulomb Explosion Imaging
扩散 Transformer 从库仑爆炸成像反演分子结构:带记忆的 Transformer + 条件扩散去噪 + 两阶段训练(粗糙→精细),MAE < 1 Bohr radius,首次实现 >4 原子分子的实时结构重建
|
Xiang Li, Till Jahnke, Rebecca Boll, Jiaqi Han, Minkai Xu, Stefano Ermon, Phay J. Ho | 2025 | arXiv 2025 | 分子结构 扩散模型 科学应用 | ★ ★ ★ ★ ★ |
|
MeanFlow Transformers with Representation Autoencoders
MeanFlow + RAE 的高效少步生成:DiT^DH 时间差编码 + CMT 中间训练 + MFD 有限差分蒸馏,1-step FID 2.03(ImageNet 256),训练成本降 6×,GFLOPS 降 38%
|
Zheyuan Hu, Chieh-Hsin Lai, Ge Wu, Yuki Mitsufuji, Stefano Ermon | 2025 | arXiv 2025 | 图像生成 流匹配 表示自编码器 | ★ ★ ★ ★ ★ |
|
MemAgent: Reshaping Long-Context LLM with Multi-Conv RL-based Memory Agent
固定长度 token 记忆 + 分段读写 + Multi-Conv DAPO 强化学习,32K 训练外推至 3.5M token,精度衰减 <5%,O(N) 线性复杂度
|
ByteDance Seed, Tsinghua University AIR, SIA-Lab | 2025 | arXiv 2025 | 长上下文 强化学习 记忆机制 | ★ ★ ★ ★ ★ |
|
Mean Flows for One-step Generative Modeling
引入平均速度概念替代瞬时速度,实现单步生成 FID 3.43,无需预训练/蒸馏/课程学习
|
Zhengyang Geng, Mingyang Deng, Xingjian Bai, J. Zico Kolter, Kaiming He | 2025 | arXiv 2025 | 图像生成 Transformer | ★ ★ ★ ★ ★ |
|
Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight
解耦视觉预见(DVF)的通用 VLA 模型:meta queries + 扩散 Transformer 将未来帧预测与动作学习分离,LIBERO 96.7% 成功率,真实世界超越 π₀.₅
|
Yi Yang, Xueqi Li, Yiyang Chen, Jin Song, Yihan Wang, Zipeng Xiao, Jiadi Su, You Qiaoben, Pengfei Liu, Zhijie Deng | 2025 | arXiv 2025 | 机器人操控 VLA模型 视觉预测 | ★ ★ ★ ★ ★ |
|
LLaDA: Large Language Diffusion with mAsking
首个 8B 规模掩码扩散语言模型,证明生成建模原则(而非自回归形式)才是 LLM 能力的根基,在推理任务上打破逆向诅咒
|
Shen Nie, Fengqi Zhu, Zebin You, Xiaolu Zhang, Jingyang Ou, Jun Hu, Jun Zhou, Yankai Lin, Ji-Rong Wen, Chongxuan Li | 2025 | arXiv 2025 | 扩散模型 LLM | ★ ★ ★ ★ ★ |
|
LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning
首个纯扩散多模态语言模型:LLaDA-8B + SigLIP2 视觉编码器 + MLP 连接器,在知识推理任务上展现更优的数据扩展性
|
Zebin You, Shen Nie, Xiaolu Zhang, Jun Hu, Jun Zhou, Zhiwu Lu, Ji-Rong Wen, Chongxuan Li | 2025 | arXiv 2025 | 扩散模型 多模态 | ★ ★ ★ ★ ★ |
|
LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation
改进 on-policy 蒸馏实现实时多模态交互视频生成:条件质量优化 + 收敛 ODE 初始化 + 激进优化调度,20× 加速至 24.82 FPS,多轮对话中超越 Veo3/Sora2
|
Ethan Chern, Zhulin Hu, Bohao Tang, Jiadi Su, Steffi Chern, Zhijie Deng, Pengfei Liu | 2025 | arXiv 2025 | 视频生成 扩散模型蒸馏 实时交互 | ★ ★ ★ ★ ★ |
|
LIMI: Less is More for Agency
仅 78 条精选演示训练出超越万级数据模型的智能体:AgencyBench 73.5%,比 10000 条数据训练高 53.7pp,数据策展 > 数据规模
|
Yang Xiao, Mohan Jiang, Jie Sun, Keyu Li, Pengfei Liu | 2025 | arXiv 2025 | AI智能体 数据效率 微调训练 | ★ ★ ★ ★ ★ |
|
Back to Basics: Let Denoising Generative Models Denoise
基于流形假设提出 JiT:ViT 直接在像素空间做 x-prediction,无需 tokenizer/预训练/辅助损失,ImageNet 256 FID 1.82
|
Tianhong Li, Kaiming He | 2025 | arXiv 2025 | 图像生成 Transformer | ★ ★ ★ ★ ★ |
|
Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps
推理时通过搜索更好的噪声样本(而非增加去噪步数)来扩展扩散模型:验证器 × 搜索算法框架,小模型+搜索可超越大模型
|
Nanye Ma, Shangyuan Tong, Haolin Jia, Hexiang Hu, Yu-Chuan Su, Mingda Zhang, Xuan Yang, Yandong Li, Tommi Jaakkola, Xuhui Jia, Saining Xie | 2025 | arXiv 2025 | 扩散模型 推理扩展 图像生成 | ★ ★ ★ ★ ★ |
|
Improved Mean Flows: On the Challenges of Fastforward Generative Models
针对 MeanFlow 的三大挑战提出改进:v-loss 重参数化、灵活 CFG 条件化、高效上下文条件化,ImageNet 256×256 单步 FID 1.72
|
Zhengyang Geng, Yiyang Lu, Zongze Wu, Eli Shechtman, J. Zico Kolter, Kaiming He | 2025 | arXiv 2025 | 图像生成 Transformer | ★ ★ ★ ★ ★ |
|
ImplicitRDP: An End-to-End Visual-Force Diffusion Policy with Structural Slow-Fast Learning
端到端视觉-力觉扩散策略:结构化慢-快学习(因果注意力处理异步视觉/力信号)+ 虚拟目标表征正则化(防止模态坍塌),翻箱 18/20、拨开关 18/20
|
Wendi Chen, Han Xue, Yi Wang, Fangyuan Zhou, Jun Lv, Yang Jin, Shirun Tang, Chuan Wen, Cewu Lu | 2025 | arXiv 2025 | 机器人操控 扩散策略 力控制 | ★ ★ ★ ★ ★ |
|
Huxley-Gödel Machine: Human-Level Coding Agent Development by an Approximation of the Optimal Self-Improving Machine
发现元生产力-性能不匹配问题,提出 Clade-Metaproductivity (CMP) 指标指导 Agent 树搜索演化,SWE-bench 达人类水平 61.4%
|
Wenyi Wang, Piotr Piękos, Li Nanbo, Firas Laakom, Yimeng Chen, Mateusz Ostaszewski, Mingchen Zhuge, Jürgen Schmidhuber | 2025 | arXiv 2025 | LLM Agent 自我改进 | ★ ★ ★ ★ ★ |
|
Guda: Counterfactual Group-wise Training Data Attribution for Diffusion Models via Unlearning
基于机器遗忘的扩散模型组级数据归因:用遗忘近似 Leave-One-Group-Out 反事实,ELBO 差值评分,比 LOGO 快 ~100×,Top-1 准确率 72.7%
|
Naoki Murata, Yuhta Takida, Chieh-Hsin Lai, Toshimitsu Uesaka, Bac Nguyen, Stefano Ermon, Yuki Mitsufuji | 2025 | arXiv 2025 | 扩散模型 数据归因 机器遗忘 | ★ ★ ★ ★ ★ |
|
GRACE: Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation
可执行解析概念(EAC)桥接 VLM 语义推理与精确机器人操控:几何概念资产 + 结构蓝图 + 操控蓝图,零样本成功率 86-90%,比 SoFar 高 28-30pp
|
Mingyang Sun, Jiude Wei, Qichen He, Donglin Wang, Cewu Lu, Jianhua Sun | 2025 | arXiv 2025 | 机器人操控 视觉语言模型 零样本泛化 | ★ ★ ★ ★ ★ |
|
GenDexHand: Generative Simulation for Dexterous Hands
首个灵巧手生成式仿真流水线:LLM 提议任务 + MLLM 迭代校验场景 + 子任务分解 + 运动规划/RL 混合控制,成功率提升 53.4%
|
Feng Chen, Zhuxiu Xu, Tianzhe Chu, Xunzhe Zhou, Li Sun, Zewen Wu, Shenghua Gao, Zhongyu Li, Yanchao Yang, Yi Ma | 2025 | arXiv 2025 | 机器人操控 灵巧手 仿真生成 | ★ ★ ★ ★ ★ |
|
FSGlove: An Inertial-Based Hand Tracking System with Shape-Aware Calibration
16 个 IMU 捕获 48 自由度手部运动 + 可微校准框架 DiffHCal 同时估计关节角/手形/传感器安装误差,关节角误差 <2.7°,指尖接触误差 15.7mm,成本仅 $426
|
Yutong Li, Jieyi Zhang, Wenqiang Xu, Tutian Tang, Cewu Lu | 2025 | arXiv 2025 | 手部追踪 IMU 可微优化 | ★ ★ ★ ★ ★ |
|
ESPO: Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective
扩散 LLM 的原则性 RL 训练:序列级策略优化 + ELBO 作似然代理 + k₂ KL 估计器,Countdown 提升 62pp,Sudoku 提升 70pp,解决 token 级分解的理论缺陷
|
Jingyang Ou, Jiaqi Han, Minkai Xu, Shaoxuan Xu, Jianwen Xie, Stefano Ermon, Yi Wu, Chongxuan Li | 2025 | arXiv 2025 | 扩散语言模型 强化学习 后训练 | ★ ★ ★ ★ ★ |
|
Energy Scaling Laws for Diffusion Models: Quantifying Compute and Carbon Emissions in Image Generation
扩散模型推理能耗的缩放定律:FLOPs 分解(文本编码 + 去噪 + 解码)+ 对数线性回归,跨架构 R² > 0.9,去噪占 90%+ 能耗,fp32 比 fp16 贵 ~7.4×
|
Aniketh Iyengar, Jiaqi Han, Boris Ruf, Vincent Grari, Marcin Detyniecki, Stefano Ermon | 2025 | arXiv 2025 | 扩散模型 能耗分析 缩放定律 | ★ ★ ★ ★ ★ |
|
EgoTwin: Dreaming Body and View in First Person
联合第一人称视频和人体运动生成:头部中心表示 + 前向/逆向动力学注意力掩码 + 异步扩散,视角-运动对齐误差降 70%
|
Jingqiao Xiu, Fangzhou Hong, Yicong Li, Mengze Li, Wentao Wang, Sirui Han, Liang Pan, Ziwei Liu | 2025 | arXiv 2025 | 视频生成 人体运动 | ★ ★ ★ ★ ★ |
|
EARL: Efficient Agentic Reinforcement Learning Systems for Large Language Models
智能体 RL 训练的系统优化:动态并行度选择器(防 OOM)+ 布局感知数据分发器(all-to-all 替代中心化聚合),128 GPU 上延迟降低 9.7-11.2×
|
Zheyue Tan, Mustapha Abdullahi, Tuo Shi, Huining Yuan, Zelai Xu, Chao Yu, Boxun Li, Bo Zhao | 2025 | arXiv 2025 | 强化学习 系统优化 分布式训练 | ★ ★ ★ ★ ★ |
|
Generative Modeling via Drifting
提出 Drifting Models 新范式,在训练时演化 pushforward 分布,实现单步生成,ImageNet 256×256 达到 FID 1.54
|
Mingyang Deng, He Li, Tianhong Li, Yilun Du, Kaiming He | 2025 | arXiv 2025 | 图像生成 自监督学习 | ★ ★ ★ ★ ★ |
|
Scaling Diffusion Transformers Efficiently via μP
将 μP(最大更新参数化)从标准 Transformer 扩展到扩散 Transformer,实现超参数从小模型到大模型的零成本迁移,DiT-XL 收敛加速 2.9×
|
Chenyu Zheng, Xinyu Zhang, Rongzhen Wang, Wei Huang, Zhi Tian, Weilin Huang, Jun Zhu, Chongxuan Li | 2025 | NeurIPS 2025 | 图像生成 Transformer 训练优化 | ★ ★ ★ ★ ★ |
|
Diffuse and Disperse: Image Generation with Representation Regularization
提出 Dispersive Loss——无需正样本对的对比学习正则化,无需预训练/额外参数/外部数据,一致提升扩散模型质量
|
Runqian Wang, Kaiming He | 2025 | arXiv 2025 | 图像生成 自监督学习 | ★ ★ ★ ★ ★ |
|
DiffGen: Robot Demonstration Generation via Differentiable Physics Simulation, Differentiable Rendering, and Vision-Language Model
可微物理仿真 + 可微渲染 + VLM 端到端优化机器人轨迹:语言指令→余弦相似度损失→梯度反传生成演示,比 RL 快 500×,跨机器人迁移成功率 84%
|
Yang Jin, Jun Lv, Shuqiang Jiang, Cewu Lu | 2025 | arXiv 2025 | 机器人操控 可微仿真 视觉语言模型 | ★ ★ ★ ★ ★ |
|
Demystifying Reinforcement Learning in Agentic Reasoning
智能体 RL 的系统性拆解:真实轨迹 vs 合成轨迹(差距巨大)+ clip 放宽 + 超长奖励塑形 + 深思式推理优于频繁调用,4B 模型匹敌 14B-32B
|
Zhaochen Yu, Ling Yang, Jiaru Zou, Shuicheng Yan, Mengdi Wang | 2025 | arXiv 2025 | 智能体 强化学习 工具使用 | ★ ★ ★ ★ ★ |
|
DC-VideoGen: Efficient Video Generation with Deep Compression Video Autoencoder
后训练加速框架:Deep Compression Video AE (DC-AE-V) 实现 384× 压缩率 + AE-Adapt-V 轻量适配,单卡 H100 生成 720p 视频加速 7.7×
|
Junyu Chen, Wenkun He, Yuchao Gu, Yuyang Zhao, Jincheng Yu, Junsong Chen, Dongyun Zou, Yujun Lin, Zhekai Zhang, Muyang Li, Haocheng Xi, Ligeng Zhu, Enze Xie, Song Han, Han Cai | 2025 | arXiv 2025 | 视频生成 Transformer | ★ ★ ★ ★ ★ |
|
DC-Gen: Post-Training Diffusion Acceleration with Deeply Compressed Latent Space
后训练扩散加速:Embedding 对齐 + LoRA 微调将预训练 DiT 迁移到高压缩 AE,4K 生成加速 53×,训练成本降 520×
|
Wenkun He, Yuchao Gu, Junyu Chen, Dongyun Zou, Yujun Lin, Zhekai Zhang, Haocheng Xi, Muyang Li, Ligeng Zhu, Jincheng Yu, Junsong Chen, Enze Xie, Song Han, Han Cai | 2025 | arXiv 2025 | 图像生成 Transformer | ★ ★ ★ ★ ★ |
|
DC-AR: Efficient Masked Autoregressive Image Generation with Deep Compression Hybrid Tokenizer
混合 tokenizer (DC-HT):离散 token 捕获结构 + 连续残差 token 捕获细节,32× 压缩率下 12 步 MaskGIT 采样达 gFID 5.49
|
Yecheng Wu, Junyu Chen, Zhuoyang Zhang, Enze Xie, Jincheng Yu, Junsong Chen, Jinyi Hu, Yao Lu, Song Han, Han Cai | 2025 | arXiv 2025 | 图像生成 Transformer | ★ ★ ★ ★ ★ |
|
DC-AE 1.5: Accelerating Diffusion Model Convergence with Structured Latent Space
解决高通道数 latent 空间导致扩散模型收敛慢的问题:结构化 latent 空间 + 增强扩散训练,UViT-H 收敛加速 6×
|
Junyu Chen, Dongyun Zou, Wenkun He, Junsong Chen, Enze Xie, Song Han, Han Cai | 2025 | arXiv 2025 | 图像生成 自编码器 | ★ ★ ★ ★ ★ |
|
Darwin Gödel Machine: Open-Ended Evolution of Self-Improving Agents
提出 Darwin Gödel Machine:维护 Agent 群体档案,通过开放式演化实现自我改进编码 Agent,SWE-bench 从 20% 提升至 50%
|
Jenny Zhang, Shengran Hu, Cong Lu, Robert Lange, Jeff Clune | 2025 | arXiv 2025 | LLM Agent 自我改进 | ★ ★ ★ ★ ★ |
|
CudaForge: An Agent Framework with Hardware Feedback for CUDA Kernel Optimization
双 Agent 框架 + Nsight Compute 硬件反馈,无需训练,CUDA kernel 平均 1.77× 加速,每 kernel 仅 $0.30/26.5 分钟
|
Zijian Zhang, Rong Wang, Shiyang Li, Yuebo Luo, Mingyi Hong, Caiwen Ding | 2025 | arXiv 2025 | LLM Agent CUDA优化 | ★ ★ ★ ★ ★ |
|
CMT: Mid-Training for Efficient Learning of Consistency, Mean Flow, and Flow Map Models
扩散模型的中间训练阶段:用预训练教师的轨迹点做固定回归目标初始化一致性/流映射模型,2-step FID 1.97/1.32/1.84,训练成本降低 50-98%
|
Zheyuan Hu, Chieh-Hsin Lai, Yuki Mitsufuji, Stefano Ermon | 2025 | arXiv 2025 | 扩散模型 一致性模型 训练效率 | ★ ★ ★ ★ ★ |
|
Bidirectional Normalizing Flow: From Data to Noise and Back
提出双向归一化流 BiFlow,用可学习反向模型替代精确解析逆,相比因果解码加速 100 倍,NF 方法中 SOTA
|
Yiyang Lu, Qiao Sun, Xianbang Wang, Zhicheng Jiang, Hanhong Zhao, Kaiming He | 2025 | arXiv 2025 | 图像生成 Transformer | ★ ★ ★ ★ ★ |
|
ArtGS: 3D Gaussian Splatting for Interactive Visual-Physical Modeling of Articulated Objects
3DGS + VLM 推理铰接骨骼 + 可微渲染闭环优化关节参数,关节轴误差 1-3°,操控成功率 62-90%,支持跨机器人部署
|
Qiaojun Yu, Xibin Yuan, Yu Jiang, Junting Chen, Dongzhe Zheng, Ce Hao, Yang You, Yixing Chen, Yao Mu, Liu Liu, Cewu Lu | 2025 | arXiv 2025 | 3D重建 高斯溅射 机器人操控 | ★ ★ ★ ★ ★ |
|
ARC Is a Vision Problem!
将 ARC 抽象推理基准重新定义为视觉问题,用 ViT + 测试时训练达到 60.4% 准确率,匹配人类水平
|
Keya Hu, Ali Cy, Linlu Qiu, Xiaoman Delores Ding, Runqian Wang, Yeyin Eva Zhu, Jacob Andreas, Kaiming He | 2025 | arXiv 2025 | 图像分类 Transformer | ★ ★ ★ ★ ★ |
|
Apollo: Asynchronous Rollout with Guidance for Agent Optimization
异步人类引导 + 动作级数据过滤训练 LLM 智能体:标注员仅在轨迹偏离时介入,监督控制机制过滤不可靠动作,InnovatorBench 上比未训练基线提升 50%+
|
Dayuan Fu, Yunze Wu, Xiaojie Cai, Lyumanshan Ye, Shijie Xia, Zhen Huang, Weiye Si, Tianze Xu, Jie Sun, Keyu Li, Mohan Jiang, Junfei Wang, Qishuo Hua, Pengrui Lu, Yang Xiao, Pengfei Liu | 2025 | arXiv 2025 | AI智能体 人机协作 微调训练 | ★ ★ ★ ★ ★ |
|
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
智能体 RL 综述:从 PBRFT(单步 MDP)到 Agentic RL(多步 POMDP)的范式转变,六大能力分类(规划/工具/记忆/推理/自改进/感知),涵盖 500+ 篇文献
|
Guibin Zhang, Hejia Geng, Xiaohang Yu, Zhenfei Yin, Heng Ji, Jun Wang, Shuicheng Yan, Philip Torr, et al. | 2025 | Transactions on Machine Learning Research 2025 | 综述 智能体 强化学习 | ★ ★ ★ ★ ★ |
|
Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models
提出 ACE 框架解决上下文优化中的简洁偏差和上下文坍缩问题,通过 Generator-Reflector-Curator 三组件架构实现上下文渐进演化
|
Qizheng Zhang, Changran Hu, Shubhangi Upasani, Boyuan Ma, Fenglu Hong, Vamsidhar Kamanuru, Jay Rainton, Chen Wu, Mengmeng Ji, Hanchen Li, Urmish Thakker, James Zou, Kunle Olukotun | 2025 | ICLR 2026 | LLM Agent 上下文工程 | ★ ★ ★ ★ ★ |
|
A-MEM: Agentic Memory for LLM Agents
Zettelkasten 启发的智能体记忆系统:原子笔记 + 动态链接 + 记忆进化,时序推理 F1 提升 80%,token 用量减少 85-93%,百万级记忆检索 <4μs
|
Wujiang Xu, Zujie Liang, Kai Mei, Hang Gao, Juntao Tan, Yongfeng Zhang | 2025 | NeurIPS 2025 | 智能体 记忆管理 知识图谱 | ★ ★ ★ ★ ★ |
|
Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces
VSI-Bench:5000+ QA 对评测多模态模型的视觉空间智能,发现空间推理是主要瓶颈(71% 错误),语言推理技巧反而有害,认知地图可改善距离推理
|
Jihan Yang, Shusheng Yang, Anjali W. Gupta, Rilyn Han, Li Fei-Fei, Saining Xie | 2024 | arXiv 2024 | 多模态 空间智能 基准测试 | ★ ★ ★ ★ ★ |
|
SoundCTM: Uniting Score-based and Consistency Models for Text-to-Sound Generation
文本到声音的一致性轨迹模型:教师网络做特征提取器 + 灵活 CFG 训练 + ν 插值采样,1 步 FAD 2.08 超 ConsistencyTTA,16 步 FAD 1.38 超扩散教师
|
Koichi Saito, Dongjun Kim, Takashi Shibuya, Chieh-Hsin Lai, Zhi Zhong, Yuhta Takida, Yuki Mitsufuji | 2024 | arXiv 2024 | 音频生成 一致性模型 扩散模型 | ★ ★ ★ ★ ★ |
|
SKT: Integrating State-Aware Keypoint Trajectories with Vision-Language Models for Robotic Garment Manipulation
统一 VLM 做多类衣物操控:状态感知成对关键点表征 + 大规模合成数据集 + 两阶段微调(关键点检测→动作轨迹生成),关键点距离误差比专用模型低 40-60%
|
Xin Li, Siyuan Huang, Qiaojun Yu, Zhengkai Jiang, Ce Hao, Yimeng Zhu, Hongsheng Li, Peng Gao, Cewu Lu | 2024 | arXiv 2024 | 机器人操控 视觉语言模型 衣物操控 | ★ ★ ★ ★ ★ |
|
Simplifying, Stabilizing & Scaling Continuous-Time Consistency Models
统一 TrigFlow 框架 + 切线归一化/自适应加权/双重归一化等稳定化技术,首次将连续时间一致性模型扩展到 1.5B 参数,2 步采样 ImageNet 512 FID 1.88
|
Cheng Lu, Yang Song | 2024 | arXiv 2024 | 扩散模型 一致性模型 图像生成 | ★ ★ ★ ★ ★ |
|
Sana: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers
全栈高效 T2I 系统:32× 压缩 AE + 线性注意力 DiT + Decoder-only LLM 文本编码器 + Flow-DPM-Solver,4K 生成比 FLUX 快 100×
|
Enze Xie, Junsong Chen, Junyu Chen, Han Cai, Haotian Tang, Yujun Lin, Zhekai Zhang, Muyang Li, Ligeng Zhu, Yao Lu, Song Han | 2024 | arXiv 2024 | 图像生成 Transformer | ★ ★ ★ ★ ★ |
|
Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning
用 RL(PPO)微调 VLM 做多步决策智能体:CoT 推理 + 文本动作 → 环境执行 → 任务奖励优化,7B 模型超越 GPT-4V
|
Yuexiang Zhai, Hao Bai, Zipeng Lin, Jiayi Pan, Shengbang Tong, Yifei Zhou, Alane Suhr, Saining Xie, Yann LeCun, Yi Ma, Sergey Levine | 2024 | arXiv 2024 | 多模态 强化学习 决策智能体 | ★ ★ ★ ★ ★ |
|
RegionGPT: Towards Region Understanding Vision Language Model
区域级视觉语言理解:反卷积特征细化 + Mask Pooling 区域编码 + GPT 辅助生成 87 词/区域的详细描述,mAP 70.0
|
Qiushan Guo, Shalini De Mello, Hongxu Yin, Wonmin Byeon, Ka Chun Cheung, Yizhou Yu, Ping Luo, Sifei Liu | 2024 | arXiv 2024 | 多模态 区域理解 | ★ ★ ★ ★ ★ |
|
Lessons from Learning to Spin Pens
三阶段学习笔旋转:仿真 RL 训练 Oracle + 本体感受预训练 + 不到 50 条真实轨迹微调,首次实现灵巧手多圈连续笔旋转
|
Jun Wang, Ying Yuan, Haichuan Che, Haozhi Qi, Yi Ma, Jitendra Malik, Xiaolong Wang | 2024 | arXiv 2024 | 机器人操控 灵巧手 Sim-to-Real | ★ ★ ★ ★ ★ |
|
OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models
以 PTQ 效率达到 QAT 性能:可学习权重裁剪(LWC)+ 可学习等价变换(LET),单 A100 完成校准,W2A16 PPL 13.21(GPTQ 5500+)
|
Wenqi Shao, Mengzhao Chen, Zhaoyang Zhang, Peng Xu, Lirui Zhao, Zhiqian Li, Kaipeng Zhang, Peng Gao, Yu Qiao, Ping Luo | 2024 | arXiv 2024 | 模型量化 LLM推理 | ★ ★ ★ ★ ★ |
|
Mean-field Chaos Diffusion Models
平均场混沌扩散模型:将高基数数据视为 N 粒子交互系统 + Wasserstein 变分方程 + 混沌熵细分策略,突破维度灾难,支持可变基数生成
|
Sungwoo Park, Dongjun Kim, Ahmed M. Alaa | 2024 | ICML 2024 | 扩散模型 平均场理论 高基数数据 | ★ ★ ★ ★ ★ |
|
Light-X: Generative 4D Video Rendering with Camera and Illumination Control
联合相机轨迹和光照控制的视频生成:动态点云解耦几何/运动,重光照帧解耦光照,Light-Syn 降质流水线合成训练数据
|
Tianqi Liu, Zhaoxi Chen, Zihao Huang, Shaocong Xu, Saining Zhang, Chongjie Ye, Bohan Li, Zhiguo Cao, Wei Li, Hao Zhao, Ziwei Liu | 2024 | arXiv 2024 | 视频生成 3D视觉 | ★ ★ ★ ★ ★ |
|
Deconstructing Denoising Diffusion Models for Self-Supervised Learning
系统解构扩散模型中哪些组件对表征学习真正重要:逐步去除现代组件,最终发现低维潜在空间 + 去噪目标是核心,得到接近 MAE 性能的极简 l-DAE
|
Xinlei Chen, Zhuang Liu, Saining Xie, Kaiming He | 2024 | arXiv 2024 | 自监督学习 扩散模型 表征学习 | ★ ★ ★ ★ ★ |
|
KAN: Kolmogorov-Arnold Networks
基于 Kolmogorov-Arnold 表示定理的新型网络:可学习激活函数在边上而非节点上,B-spline 参数化实现 α=4 的缩放指数,兼具精度与可解释性
|
Ziming Liu, Yixuan Wang, Sachin Vaidya, Fabian Ruehle, James Halverson, Marin Soljačić, Thomas Y. Hou, Max Tegmark | 2024 | arXiv 2024 | 神经网络架构 科学发现 | ★ ★ ★ ★ ★ |
|
InfiniteWorld: A Unified Scalable Simulation Framework for General Visual-Language Robot Interaction
基于 Isaac Sim 的统一具身 AI 仿真框架:生成式 3D 资产构建 + Real2Sim + 自动标注 + 4 个基准(导航/操作/协作探索/社交操作),揭示 VLM 在具身任务中的根本局限
|
Pengzhen Ren, et al. | 2024 | arXiv 2024 | 具身智能 仿真平台 多智能体 | ★ ★ ★ ★ ★ |
|
Grendel-GS: On Scaling Up 3D Gaussian Splatting Training
首个多 GPU 分布式 3DGS 训练系统:稀疏 All-to-All 通信 + 动态负载均衡 + sqrt(batch) 超参缩放规则,16 GPU 支持 4000 万高斯,4K 场景 PSNR 27.28
|
Hexu Zhao, Haoyang Weng, Daohan Lu, Ang Li, Jinyang Li, Aurojit Panda, Saining Xie | 2024 | arXiv 2024 | 3D重建 高斯溅射 分布式训练 | ★ ★ ★ ★ ★ |
|
Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement
提出自引用递归自我改进框架:LLM Agent 通过 monkey patching 在运行时修改自身代码,同时改进策略 π 和学习算法 I
|
Xunjian Yin, Xinyi Wang, Liangming Pan, Li Lin, Xiaojun Wan, William Yang Wang | 2024 | arXiv 2024 | LLM Agent 自我改进 | ★ ★ ★ ★ ★ |
|
GeoSplatting: Towards Geometry Guided Gaussian Splatting for Physically-based Inverse Rendering
显式网格几何引导 3DGS 逆渲染:MGadapter 将网格三角面映射为高斯点 + 基于 BVH 的二值遮挡 + GGX BRDF,重光照 PSNR 超基线 3.1dB,训练仅 14 分钟
|
Kai Ye, Chong Gao, Guanbin Li, Wenzheng Chen, Baoquan Chen | 2024 | arXiv 2024 | 3D重建 高斯溅射 逆渲染 | ★ ★ ★ ★ ★ |
|
DexFlyWheel: A Scalable and Self-improving Data Generation Framework for Dexterous Manipulation
两阶段飞轮框架:从单个人类示范出发,通过模仿学习+残差强化学习+数据增强的自我改进循环,生成2000+高质量灵巧操控轨迹
|
Kefei Zhu, Fengshuo Bai, YuanHao Xiang, Yishuai Cai, Xinglin Chen, Ruochong Li, Xingtao Wang, Hao Dong, Yaodong Yang, Xiaopeng Fan, Yuanpei Chen | 2024 | arXiv 2024 | 机器人操控 模仿学习 | ★ ★ ★ ★ ★ |
|
Dexterous Manipulation Based on Prior Dexterous Grasp Pose Knowledge
两阶段灵巧操控:功能部位抓取姿态先验 + RL 精细操控,学习效率提升 80-150×,成功率比 DexArt 高 15-29pp,真实世界 74-79%
|
Hengxu Yan, Haoshu Fang, Cewu Lu | 2024 | arXiv 2024 | 灵巧手 机器人操控 强化学习 | ★ ★ ★ ★ ★ |
|
DAPS: Decoupled Annealing Posterior Sampling
解耦扩散采样步间依赖 + 退火式 MCMC 后验采样,在非线性逆问题(相位恢复)上比 DPS 高 13dB PSNR
|
Bingliang Zhang, Wenda Chu, Julius Berner, Chenlin Meng, Anima Anandkumar, Yang Song | 2024 | arXiv 2024 | 扩散模型 逆问题 图像恢复 | ★ ★ ★ ★ ★ |
|
Cambrian-S: Towards Spatial Supersensing in Video
提出空间超感知四阶段发展框架 + VSI-Super 基准(长程回忆/持续计数),训练 Cambrian-S 在 VSI-Bench 提升 30%,并通过预测式感知(惊讶驱动记忆)应对超长视频
|
Shusheng Yang, Jihan Yang, Pinzhi Huang, Ellis Brown, Zihao Yang, Yue Yu, Shengbang Tong, Zihan Zheng, Yifan Xu, Muhan Wang, Daohan Lu, Rob Fergus, Yann LeCun, Li Fei-Fei, Saining Xie | 2024 | arXiv 2024 | 多模态 视频理解 空间智能 | ★ ★ ★ ★ ★ |
|
SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution
可解释的分层规划:向量量化学习离散技能表示 + 技能条件扩散生成状态轨迹 + 逆动力学解码动作,组合任务成功率 25.2%
|
Zhixuan Liang, Yao Mu, Hengbo Ma, Masayoshi Tomizuka, Mingyu Ding, Ping Luo | 2023 | arXiv 2023 | 机器人规划 扩散模型 | ★ ★ ★ ★ ★ |
|
GenTron: Diffusion Transformers for Image and Video Generation
系统探索 Transformer 替代 U-Net 做文本到图像/视频扩散生成:cross-attention 优于 adaLN 做文本条件,Motion-Free Guidance 解决视频质量退化
|
Shoufa Chen, Mengmeng Xu, Jiawei Ren, Yuren Cong, Sen He, Yanping Xie, Animesh Sinha, Ping Luo, Tao Xiang, Juan-Manuel Perez-Rua | 2023 | arXiv 2023 | 图像生成 视频生成 Transformer | ★ ★ ★ ★ ★ |
|
AWQ: Activation-aware Weight Quantization for On-Device LLM Compression and Acceleration
发现仅 1% 关键权重(由激活分布决定)即可大幅降低量化误差,提出免训练的 per-channel 缩放方法,INT4 量化几乎无损
|
Ji Lin, Jiaming Tang, Haotian Tang, Shang Yang, Wei-Ming Chen, Wei-Chen Wang, Guangxuan Xiao, Xingyu Dang, Chuang Gan, Song Han | 2023 | MLSys 2024 | 模型量化 LLM推理 | ★ ★ ★ ★ ★ |
|
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
首次将纯 Transformer 架构直接应用于图像分类任务,证明无需 CNN 也能达到 SOTA
|
Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, et al. | 2021 | ICLR 2021 | Transformer 图像分类 | ★ ★ ★ ★ ★ |
|
End-to-End Object Detection with Transformers (DETR)
首个基于 Transformer 的端到端目标检测框架,去除了 NMS 和 anchor 等手工设计组件
|
Nicolas Carion, Francisco Massa, Gabriel Synnaeve, et al. | 2020 | ECCV 2020 | 目标检测 Transformer | ★ ★ ★ ★ ★ |