2ヶ月前
WeakSAM: Segment Anything が弱教師付きインスタンスレベル認識と出会う
Zhu, Lianghui ; Zhou, Junwei ; Liu, Yan ; Hao, Xin ; Liu, Wenyu ; Wang, Xinggang

要約
非監督的な視覚認識の不完全な教師あり学習は、重要な一方で困難な学習問題である。これは、人的ラベリングコストを大幅に削減し、従来は多例学習(multi-instance learning)や疑似ラベル付け(pseudo-labeling)に依存していた。本論文では、WeakSAMを導入し、視覚基盤モデルに含まれる事前学習済みの世界知識を利用して弱教師あり物体検出(Weakly-Supervised Object Detection: WSOD)とセグメンテーションを行う方法を提案する。具体的には、Segment Anything Model (SAM) を用いて、伝統的なWSOD再学習における2つの重要な制限要因、すなわち疑似正解データ(Pseudo Ground Truth: PGT)の不完全さとノイジーなPGTインスタンスを適応的なPGT生成と関心領域(Region of Interest: RoI)ドロップ正則化によって解決する。さらに、自動的な物体検出とセグメンテーションにおいてSAMがプロンプトを必要とする問題やカテゴリ認識不能の問題も対処している。我々の結果は、WeakSAMがWSODおよびWSISベンチマークにおいて既存の最先端手法を大幅に上回ることを示しており、それぞれ平均7.4%および8.5%の改善が見られた。コードは \url{https://github.com/hustvl/WeakSAM} から入手可能である。