2ヶ月前
Deep ViT Features を用いた Dense Visual Descriptors
Amir, Shir ; Gandelsman, Yossi ; Bagon, Shai ; Dekel, Tali

要約
私たちは、事前学習されたビジョントランスフォーマー(ViT)から抽出した深層特徴を、稠密な視覚記述子としての利用について研究しています。自己教師なしViTモデル(DINO-ViT)から抽出したこのような特徴が、以下のいくつかの注目すべき特性を持つことを観察し、実証的に示しています:(i) 特徴は、オブジェクトの部分など、高い空間的粒度で強力かつ正確に位置情報をエンコードします;(ii) エンコードされた意味情報は、関連する異なるオブジェクトカテゴリ間で共有されています;(iii) 位置的なバイアスは層を通じて徐々に変化します。これらの特性により、共セグメンテーション、部分共セグメンテーション、意味対応などのさまざまなアプリケーション向けに単純な手法を設計することが可能となります。複雑な設計選択肢からViT特徴の力を抽出するために、私たちは軽量なゼロショット手法(例:ビニングとクラスタリング)を直接特徴に適用することに制限しています。これらの手法は追加の学習やデータを必要としないため、さまざまなドメインでの即時適用が可能です。広範な定性的および定量的評価によって示されるように、私たちの単純な手法は最近の最先端の教師あり手法と競合する結果を達成しており、以前の教師なし手法よりも大幅に優れています。コードは dino-vit-features.github.io で公開されています。