
要約
本稿では、視覚変換器(Vision Transformer)におけるBERT型事前学習のためのより優れた予測ターゲットの探索を試みる。現在の予測ターゲットが人間の知覚判断と一致しない点に着目し、この矛盾を解消するため、知覚的に類似した画像が予測ターゲット空間内で近接するように学習する知覚的予測ターゲットの導入を提案する。驚くべきことに、dVAEの学習過程において知覚的類似性を強制するという単純ながら効果的なアプローチが有効であることが判明した。さらに、深層特徴抽出に自己教師付き変換器モデルを採用し、知覚的類似性の計算に有効であることを示した。我々は、このような学習された視覚トークンがより明確な意味的意味を持つことを実証し、さまざまな下流タスクにおける事前学習の転移性能を向上させることを確認した。例えば、ViT-Bバックボーンを用いた場合、ImageNet-1KでTop-1精度84.5%を達成し、同等の事前学習エポック数下で競合手法であるBEiTを+1.3%上回った。また、COCOにおける物体検出およびセグメンテーション、ADE20Kにおけるセマンティックセグメンテーションにおいても顕著な性能向上が得られた。さらに、より大きなバックボーンであるViT-Hを用いることで、ImageNet-1Kデータのみを用いる手法の中で、最新のSOTA(state-of-the-art)成績である88.3%のImageNet精度を達成した。