6 个月前

计算机视觉

Bingyin Zhao Zhiding Yu Shiyi Lan Yutao Cheng Anima Anandkumar Yingjie Lao Jose M. Alvarez

摘要

近期研究表明，视觉Transformer（Vision Transformers, ViTs）在分布外（out-of-distribution）场景下具有较强的鲁棒性。其中，完全注意力网络（Fully Attentional Network, FAN）——一类ViT骨干网络——已实现当前最先进的鲁棒性表现。本文重新审视FAN模型，并提出一种自涌现标记（Self-Emerging Token Labeling, STL）框架，以提升其预训练效果。所提出的方法采用两阶段训练机制：首先训练一个FAN标记生成器（FAN-TL），用于为图像块（patch）生成语义上合理的token标签；随后进入FAN学生模型的训练阶段，该阶段同时利用生成的token标签与原始类别标签进行监督学习。在所提出的STL框架下，基于FAN-L-Hybrid（7730万参数）架构的最佳模型在ImageNet-1K上达到84.8%的Top-1准确率，在ImageNet-C上实现42.1%的mCE（mean Corruption Error），并在未使用额外数据的情况下，刷新了ImageNet-A（46.1%）和ImageNet-R（56.6%）的性能记录，显著优于原始FAN模型。此外，该框架在下游任务中也展现出显著提升的性能，例如在语义分割任务中，鲁棒性相较基线模型最高提升达1.7%。代码已开源，地址为：https://github.com/NVlabs/STL。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Bingyin Zhao Zhiding Yu Shiyi Lan Yutao Cheng Anima Anandkumar Yingjie Lao Jose M. Alvarez

摘要

近期研究表明，视觉Transformer（Vision Transformers, ViTs）在分布外（out-of-distribution）场景下具有较强的鲁棒性。其中，完全注意力网络（Fully Attentional Network, FAN）——一类ViT骨干网络——已实现当前最先进的鲁棒性表现。本文重新审视FAN模型，并提出一种自涌现标记（Self-Emerging Token Labeling, STL）框架，以提升其预训练效果。所提出的方法采用两阶段训练机制：首先训练一个FAN标记生成器（FAN-TL），用于为图像块（patch）生成语义上合理的token标签；随后进入FAN学生模型的训练阶段，该阶段同时利用生成的token标签与原始类别标签进行监督学习。在所提出的STL框架下，基于FAN-L-Hybrid（7730万参数）架构的最佳模型在ImageNet-1K上达到84.8%的Top-1准确率，在ImageNet-C上实现42.1%的mCE（mean Corruption Error），并在未使用额外数据的情况下，刷新了ImageNet-A（46.1%）和ImageNet-R（56.6%）的性能记录，显著优于原始FAN模型。此外，该框架在下游任务中也展现出显著提升的性能，例如在语义分割任务中，鲁棒性相较基线模型最高提升达1.7%。代码已开源，地址为：https://github.com/NVlabs/STL。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供