2ヶ月前

自己監督型トランスフォーマーを用いた正規化カットによる非監督物体発見

Yangtao Wang; Xi Shen; Shell Hu; Yuan Yuan; James Crowley; Dominique Vaufreydaz

要約

自己教師ありの学習を用いて自己蒸留損失（DINO）で訓練されたトランスフォーマーは、注目すべき前景オブジェクトを強調するアテンションマップを生成することが示されています。本論文では、自己教師ありのトランスフォーマー特徴量を使用して画像からオブジェクトを発見するグラフベースの手法について説明します。視覚トークンは、エッジがトークンの類似性に基づく接続スコアを表す重み付きグラフのノードとして扱われます。前景オブジェクトは、正規化されたグラフカットを使用して自己類似領域をグループ化することでセグメンテーションできます。我々は、一般化固有値分解を用いたスペクトラルクラスタリングによりグラフカット問題を解き、その2番目に小さい固有ベクトルが切断解を提供することを示します。これは、その絶対値がトークンが前景オブジェクトに属する確率を示すためです。この手法は単純であるにもかかわらず、無教師オブジェクト発見の性能を大幅に向上させています：VOC07, VOC12, COCO20KにおいてそれぞれLOSTよりも6.9%, 8.1%, 8.1%改善しています。クラス非依存検出器（CAD）の第2段階を追加することで、さらに性能向上が可能です。提案手法は無教師サリエンシー検出や弱教師ありオブジェクト検出にも容易に拡張できます。無教師サリエンシー検出では、ECSSD, DUTS, DUT-OMRONにおいてそれぞれ4.9%, 5.2%, 12.9%のIoU改善が得られました。弱教師ありオブジェクト検出ではCUBとImageNetで競争力のある性能を達成しています。