An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

作者 Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, et al.

年份 2021

会议/期刊 ICLR 2021

评分 ★ ★ ★ ★ ★

标签 Transformer 图像分类

摘要首次将纯 Transformer 架构直接应用于图像分类任务，证明无需 CNN 也能达到 SOTA

论文原文代码仓库

核心思想

ViT 将图像切分为固定大小的 patch（如 16x16），将每个 patch 线性映射为 token，然后直接输入标准 Transformer Encoder 进行分类。这一工作证明了在大规模数据集预训练的条件下，纯 Transformer 架构可以在图像分类任务上匹配甚至超越 CNN。

Patch Embedding：将输入图像 $H \times W \times C$ 切分为 $N = HW/P^2$ 个 patch，每个 patch 展平后通过线性投影映射到 $D$ 维
Position Embedding：使用可学习的 1D 位置编码
[CLS] Token：在序列头部添加一个可学习的分类 token
Transformer Encoder：标准的多头自注意力 + FFN 结构
分类头：取 [CLS] token 的输出接 MLP Head