17日前

完全アテンションネットワークにおける自己発生型トークンラベリング

Bingyin Zhao, Zhiding Yu, Shiyi Lan, Yutao Cheng, Anima Anandkumar, Yingjie Lao, Jose M. Alvarez
完全アテンションネットワークにおける自己発生型トークンラベリング
要約

最近の研究では、ビジョン変換器(ViT)が分布外(out-of-distribution)の状況に対して高いロバスト性を示すことが示されている。特に、FAN(Fully Attentional Network)と呼ばれるViTバックボーンの一群は、最新のロバスト性を達成している。本論文では、FANモデルを再検討し、自己発生的トークンラベリング(Self-Emerging Token Labeling; STL)フレームワークを用いてその事前学習を改善した。本手法は二段階の学習フレームワークを採用している。具体的には、まずFANトークンラベラー(FAN-TL)を訓練し、意味的に意味のあるパッチトークンラベルを生成する。その後、そのラベルと元のクラスラベルの両方を用いてFAN学生モデルを学習する段階に移行する。提案するSTLフレームワークにより、FAN-L-Hybrid(77.3Mパラメータ)をベースとする最良のモデルは、ImageNet-1KでTop-1精度84.8%、ImageNet-CではmCE(mean Class-Conditional Error)42.1%を達成し、追加データを一切使用せずに、ImageNet-A(46.1%)およびImageNet-R(56.6%)において新たなSOTA(State-of-the-Art)を樹立した。また、オリジナルのFANモデルと比較して顕著な性能向上を示した。さらに、本フレームワークはセマンティックセグメンテーションをはじめとする下流タスクにおいても顕著な性能向上を示し、対応するモデルと比較してロバスト性が最大1.7%向上した。コードはhttps://github.com/NVlabs/STLにて公開されている。

完全アテンションネットワークにおける自己発生型トークンラベリング | 最新論文 | HyperAI超神経