17日前
SegCLIP:学習可能な中心を用いたパッチ集約によるオープンボリュームセマンティックセグメンテーション
Huaishao Luo, Junwei Bao, Youzheng Wu, Xiaodong He, Tianrui Li

要約
最近、対照的言語-画像事前学習(例:CLIP)は、さまざまな下流タスクにおいて有望な結果を示している。事前学習モデルは、大規模なテキスト-画像データから学習することで、画像に対する豊かな視覚的概念を捉えることができる。しかし、学習された視覚知識をオープンボリュームのセマンティックセグメンテーションに移行する方法はまだ十分に検討されていない。本論文では、アノテーションフリーなアプローチを採用し、オープンボリュームセグメンテーションを対象にしたCLIPベースのモデル「SegCLIP」を提案する。SegCLIPはViT(Vision Transformer)を基盤とし、テキスト-画像ペアの学習を通じて、学習可能な中心を持つパッチをセマンティック領域に集約するという主なアイデアを採用している。この集約操作により、動的にセマンティックグループを捉えることが可能となり、最終的なセグメンテーション結果の生成に活用できる。さらに、マスクされたパッチに対する再構成損失と、仮ラベルを用いたスーパープクセルベースのKL損失を導入することで、視覚表現の強化を図った。実験結果から、PASCAL VOC 2012(+0.3% mIoU)、PASCAL Context(+2.3% mIoU)、COCO(+2.2% mIoU)の各データセットにおいて、既存のベースラインと比較して同等または優れたセグメンテーション精度を達成した。コードは https://github.com/ArrowLuo/SegCLIP にて公開している。