TransFGU:微細粒度無教師付きセマンティックセグメンテーションのためのトップダウンアプローチ

教師なしセマンティックセグメンテーションは、手動によるアノテーションなしに低レベルの視覚特徴から高レベルの意味的表現を獲得することを目的としている。既存の多くは、視覚的ヒントや事前定義されたルールに基づいてピクセルを領域にグループ化する下向き(bottom-up)アプローチである。しかし、複数の物体が存在し、一部の物体が類似した視覚的外観を持つ複雑なシーンにおいては、このような下向きアプローチでは細粒度なセマンティックセグメンテーションを生成することが困難である。これに対し、本研究では極めて複雑なシナリオにおける細粒度セグメンテーションを実現する、初めてのトップダウン(top-down)型教師なしセマンティックセグメンテーションフレームワークを提案する。具体的には、まず大規模な視覚データから自己教師学習(self-supervised learning)の手法を用いて豊富な高レベル構造的意味概念情報を取得し、これを事前知識(prior)として用いて、ターゲットデータセットに含まれる潜在的な意味カテゴリを発見する。次に、発見された高レベル意味カテゴリを、特定の意味表現に対するクラス活性マップ(Class Activation Map: CAM)を計算することで、低レベルのピクセル特徴にマッピングする。最後に、得られたCAMを擬似ラベルとして用いてセグメンテーションモジュールを学習し、最終的なセマンティックセグメンテーション結果を生成する。複数のセマンティックセグメンテーションベンチマークにおける実験結果から、本手法はオブジェクト中心型およびシーン中心型のデータセットにおいて、異なる意味的粒度レベルにおいても高いロバスト性を示し、現在の最先端の下向きアプローチをすべて上回ることが確認された。本研究のコードは、\url{https://github.com/damo-cv/TransFGU} にて公開されている。