16日前
イテレーティブ少サンプルセマンティックセグメンテーション:画像ラベルテキストからの学習
Haohan Wang, Liang Liu, Wuhao Zhang, Jiangning Zhang, Zhenye Gan, Yabiao Wang, Chengjie Wang, Haoqian Wang

要約
少数ショット意味分割は、わずかなサポート画像のガイドのもとで、未観測クラスのオブジェクトを分割する能力を学習することを目的としている。従来の大多数の手法は、サポート画像のピクセルレベルのラベルに依存している。本論文では、より困難な設定に注目しており、サポート画像に対してはピクセルレベルのラベルではなく、画像レベルのラベルのみが利用可能である状況を想定している。我々は、強力な視覚言語モデルCLIPを活用して初期に粗いマスクを生成し、その後、サポート画像とクエリ画像のマスク予測を反復的かつ相互に精緻化する汎用的なフレームワークを提案する。PASCAL-5iおよびCOCO-20iデータセットにおける広範な実験により、本手法が最先端の弱教師ありアプローチを大きく上回ること、さらに最近の教師あり手法と同等または優れた性能を達成することを示した。さらに、本手法は実世界の画像や珍しいクラスに対して優れた一般化能力を有している。コードはhttps://github.com/Whileherham/IMR-HSNetにて公開される予定である。