2 个月前

iBOT:在线分词器的图像BERT预训练

Jinghao Zhou; Chen Wei; Huiyu Wang; Wei Shen; Cihang Xie; Alan Yuille; Tao Kong
iBOT:在线分词器的图像BERT预训练
摘要

语言Transformer的成功主要归功于预训练任务中的掩码语言建模(MLM),其中文本首先被切分为具有语义意义的片段。在本研究中,我们探讨了掩码图像建模(MIM)并指出了使用具有语义意义的视觉分词器的优势和挑战。我们提出了一种自监督框架iBOT,该框架可以使用在线分词器进行掩码预测。具体而言,我们在掩码补丁令牌上执行自蒸馏,并将教师网络作为在线分词器,同时对类别令牌进行自蒸馏以获取视觉语义。在线分词器与MIM目标联合学习,并且无需预先训练分词器的多阶段训练流程。我们在ImageNet-1K数据集上评估了iBOT的表现,其线性探测准确率达到82.3%,微调准确率达到87.8%。除了在图像分类方面取得的领先结果外,我们还强调了出现的局部语义模式,这有助于模型在常见损坏下获得强大的鲁棒性,并在密集下游任务(如目标检测、实例分割和语义分割)中取得领先的结果。

iBOT:在线分词器的图像BERT预训练 | 最新论文 | HyperAI超神经