Command Palette
Search for a command to run...
拡散、注目、分割:Stable Diffusionを用いた教師なしゼロショット分割
拡散、注目、分割:Stable Diffusionを用いた教師なしゼロショット分割
Junjiao Tian Lavisha Aggarwal Andrea Colaco Zsolt Kira Mar Gonzalez-Franco
概要
画像に対する高品質なセグメンテーションマスクを生成することは、コンピュータビジョンにおける基本的な課題である。近年の研究では、あらゆる画像スタイルに対してゼロショットセグメンテーションを可能にする大規模な教師あり学習や、密なアノテーションなしでセグメンテーションを実現する非教師学習のアプローチが探求されている。しかし、何らのアノテーションも使用せずに、ゼロショットでいかなる画像に対しても物体を正確にセグメントできるモデルの構築は依然として困難な課題である。本論文では、事前学習済みのStable Diffusionモデルがその自己注意(self-attention)層内に物体の本質的な概念を学習していることに着目し、その層を活用することでこの目標を達成することを提案する。具体的には、注意マップ間のKLダイバージェンスを測定することで、シンプルながら効果的な反復的マージプロセスを導入し、それらを統合して有効なセグメンテーションマスクを生成する。提案手法は、学習や言語依存性を一切必要とせず、任意の画像に対して高品質なセグメンテーションを抽出可能である。COCO-Stuff-27データセットにおいて、本手法は従来の非教師ゼロショットSOTA手法に対して、ピクセル精度で26%、平均IoUで17%の絶対的な向上を達成した。プロジェクトページは以下の通り:\url{https://sites.google.com/view/diffseg/home}。