HyperAIHyperAI

Command Palette

Search for a command to run...

iBOT:在线分词器的图像BERT预训练

Jinghao Zhou¹ Chen Wei² Huiyu Wang² Wei Shen³ Cihang Xie⁴ Alan Yuille² Tao Kong¹

摘要

语言Transformer的成功主要归功于预训练任务中的掩码语言建模(MLM),其中文本首先被切分为具有语义意义的片段。在本研究中,我们探讨了掩码图像建模(MIM)并指出了使用具有语义意义的视觉分词器的优势和挑战。我们提出了一种自监督框架iBOT,该框架可以使用在线分词器进行掩码预测。具体而言,我们在掩码补丁令牌上执行自蒸馏,并将教师网络作为在线分词器,同时对类别令牌进行自蒸馏以获取视觉语义。在线分词器与MIM目标联合学习,并且无需预先训练分词器的多阶段训练流程。我们在ImageNet-1K数据集上评估了iBOT的表现,其线性探测准确率达到82.3%,微调准确率达到87.8%。除了在图像分类方面取得的领先结果外,我们还强调了出现的局部语义模式,这有助于模型在常见损坏下获得强大的鲁棒性,并在密集下游任务(如目标检测、实例分割和语义分割)中取得领先的结果。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供