2ヶ月前
TokenCut: 自教師付きトランスフォーマーと正規化カットを用いた画像および動画中の物体分割
Yangtao Wang; Xi Shen; Yuan Yuan; Yuming Du; Maomao Li; Shell Xu Hu; James L Crowley; Dominique Vaufreydaz

要約
本論文では、自己監督型トランスフォーマーによって得られた特徴を用いて画像や動画中の注目対象物を検出およびセグメンテーションするグラフベースのアルゴリズムについて説明します。この手法では、画像や動画を構成するパッチが完全に接続されたグラフに組織化され、各パッチ間のエッジにはトランスフォーマーによって学習された特徴を使用して計算された類似度スコアがラベル付けされます。注目対象物の検出とセグメンテーションは、グラフカット問題として定式化され、古典的な正規化カットアルゴリズムを用いて解かれます。この手法は単純であるにもかかわらず、一般的な画像および動画の検出・セグメンテーションタスクにおいて最先端の結果を達成しています。無教師でのオブジェクト発見において、VOC07、VOC12、COCO20Kデータセットを使用したテストでは、それぞれ6.1%、5.7%、2.6%のマージンで競合する手法を上回っています。画像における無教師サリエンシー検出タスクでは、ECSSD、DUTS、DUT-OMRONデータセットを使用したテストで、Intersection over Union (IoU) スコアをそれぞれ4.4%、5.6%、5.2%向上させています。また、DAVIS、SegTV2、FBMSデータセットを使用した無教師動画オブジェクトセグメンテーションタスクでも競争力のある結果を達成しています。