8 个月前

计算机视觉

Jinghao Zhou¹ Chen Wei² Huiyu Wang² Wei Shen³ Cihang Xie⁴ Alan Yuille² Tao Kong¹

摘要

语言Transformer的成功主要归功于预训练任务中的掩码语言建模（MLM），其中文本首先被切分为具有语义意义的片段。在本研究中，我们探讨了掩码图像建模（MIM）并指出了使用具有语义意义的视觉分词器的优势和挑战。我们提出了一种自监督框架iBOT，该框架可以使用在线分词器进行掩码预测。具体而言，我们在掩码补丁令牌上执行自蒸馏，并将教师网络作为在线分词器，同时对类别令牌进行自蒸馏以获取视觉语义。在线分词器与MIM目标联合学习，并且无需预先训练分词器的多阶段训练流程。我们在ImageNet-1K数据集上评估了iBOT的表现，其线性探测准确率达到82.3%，微调准确率达到87.8%。除了在图像分类方面取得的领先结果外，我们还强调了出现的局部语义模式，这有助于模型在常见损坏下获得强大的鲁棒性，并在密集下游任务（如目标检测、实例分割和语义分割）中取得领先的结果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Jinghao Zhou¹ Chen Wei² Huiyu Wang² Wei Shen³ Cihang Xie⁴ Alan Yuille² Tao Kong¹

摘要

语言Transformer的成功主要归功于预训练任务中的掩码语言建模（MLM），其中文本首先被切分为具有语义意义的片段。在本研究中，我们探讨了掩码图像建模（MIM）并指出了使用具有语义意义的视觉分词器的优势和挑战。我们提出了一种自监督框架iBOT，该框架可以使用在线分词器进行掩码预测。具体而言，我们在掩码补丁令牌上执行自蒸馏，并将教师网络作为在线分词器，同时对类别令牌进行自蒸馏以获取视觉语义。在线分词器与MIM目标联合学习，并且无需预先训练分词器的多阶段训练流程。我们在ImageNet-1K数据集上评估了iBOT的表现，其线性探测准确率达到82.3%，微调准确率达到87.8%。除了在图像分类方面取得的领先结果外，我们还强调了出现的局部语义模式，这有助于模型在常见损坏下获得强大的鲁棒性，并在密集下游任务（如目标检测、实例分割和语义分割）中取得领先的结果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供