
要約
視覚変換器(Vision Transformer)は、挑戦的なコンピュータビジョンタスクにおいて有望な性能を示している。しかし、視覚変換器を直接学習させると、不安定かつ最適でない結果が得られることがある。近年の研究では、変換器構造を改良することで性能を向上させるアプローチが提案されており、たとえば畳み込み層を組み込む手法が挙げられる。一方、本研究では、ネットワーク構造を変更せずに視覚変換器の学習を安定化させる、正交的なアプローチを検討する。我々は、学習の不安定性が抽出されたパッチ表現間の顕著な類似性に起因していることに着目した。具体的には、深層の視覚変換器では、自己注意ブロックが異なるパッチを類似した潜在表現にマッピングしがちであり、これにより情報損失が生じ、性能の低下を引き起こす。この問題を軽減するために、本研究ではパッチ表現間の多様性を明示的に促進する新しい損失関数を導入し、より判別力の高い特徴抽出を実現する。実験的に、提案手法が学習の安定化を実現し、より広くかつ深層な視覚変換器の学習を可能にすることを示した。さらに、多様化された特徴が転移学習における下流タスクに顕著な利点をもたらすことも確認した。セマンティックセグメンテーションにおいて、CityscapesおよびADE20kの最新技術(SOTA)結果を向上させた。本研究のコードは、https://github.com/ChengyueGongR/PatchVisionTransformer にて公開されている。