2ヶ月前

CLIP からフリーデンスラベルを抽出する

Chong Zhou; Chen Change Loy; Bo Dai
CLIP からフリーデンスラベルを抽出する
要約

コントラスティブ言語-画像事前学習(CLIP)は、オープンボキャブラリーのゼロショット画像認識において著しい進展を遂げています。最近の多くの研究では、事前学習されたCLIPモデルを画像レベルの分類や操作に活用しています。本論文では、CLIPがピクセルレベルの密集予測、特にセマンティックセグメンテーションにおける内在的な潜在力を有することを検討します。この目的のために、最小限の変更でMaskCLIPが様々なデータセット上でアノテーションや微調整なしで魅力的なセグメンテーション結果を示すことを示します。疑似ラベリングと自己訓練を追加することで、MaskCLIP+は大幅にSOTA(State-of-the-Art)伝導型ゼロショットセマンティックセグメンテーション手法を上回ります。例えば、PASCAL VOC/PASCAL Context/COCO Stuffにおける未見クラスのmIoU(mean Intersection over Union)は、35.6/20.7/30.3から86.1/66.7/54.7へと改善されました。また、入力破壊下でのMaskCLIPの堅牢性もテストし、細かい物体や新しい概念を識別する能力も評価しました。我々の調査結果は、MaskCLIPがアノテーションフリーのセグメンテーションを達成するための新たな信頼できる監督源として機能できることを示唆しています。ソースコードはhttps://github.com/chongzhou96/MaskCLIPで入手可能です。