8ヶ月前

セマンティックセグメンテーション

コンピュータビジョン

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Chong Zhou Chen Change Loy Bo Dai

概要

コントラスティブ言語-画像事前学習（CLIP）は、オープンボキャブラリーのゼロショット画像認識において著しい進展を遂げています。最近の多くの研究では、事前学習されたCLIPモデルを画像レベルの分類や操作に活用しています。本論文では、CLIPがピクセルレベルの密集予測、特にセマンティックセグメンテーションにおける内在的な潜在力を有することを検討します。この目的のために、最小限の変更でMaskCLIPが様々なデータセット上でアノテーションや微調整なしで魅力的なセグメンテーション結果を示すことを示します。疑似ラベリングと自己訓練を追加することで、MaskCLIP+は大幅にSOTA（State-of-the-Art）伝導型ゼロショットセマンティックセグメンテーション手法を上回ります。例えば、PASCAL VOC/PASCAL Context/COCO Stuffにおける未見クラスのmIoU（mean Intersection over Union）は、35.6/20.7/30.3から86.1/66.7/54.7へと改善されました。また、入力破壊下でのMaskCLIPの堅牢性もテストし、細かい物体や新しい概念を識別する能力も評価しました。我々の調査結果は、MaskCLIPがアノテーションフリーのセグメンテーションを達成するための新たな信頼できる監督源として機能できることを示唆しています。ソースコードはhttps://github.com/chongzhou96/MaskCLIPで入手可能です。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

セマンティックセグメンテーション

コンピュータビジョン

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Chong Zhou Chen Change Loy Bo Dai

概要

コントラスティブ言語-画像事前学習（CLIP）は、オープンボキャブラリーのゼロショット画像認識において著しい進展を遂げています。最近の多くの研究では、事前学習されたCLIPモデルを画像レベルの分類や操作に活用しています。本論文では、CLIPがピクセルレベルの密集予測、特にセマンティックセグメンテーションにおける内在的な潜在力を有することを検討します。この目的のために、最小限の変更でMaskCLIPが様々なデータセット上でアノテーションや微調整なしで魅力的なセグメンテーション結果を示すことを示します。疑似ラベリングと自己訓練を追加することで、MaskCLIP+は大幅にSOTA（State-of-the-Art）伝導型ゼロショットセマンティックセグメンテーション手法を上回ります。例えば、PASCAL VOC/PASCAL Context/COCO Stuffにおける未見クラスのmIoU（mean Intersection over Union）は、35.6/20.7/30.3から86.1/66.7/54.7へと改善されました。また、入力破壊下でのMaskCLIPの堅牢性もテストし、細かい物体や新しい概念を識別する能力も評価しました。我々の調査結果は、MaskCLIPがアノテーションフリーのセグメンテーションを達成するための新たな信頼できる監督源として機能できることを示唆しています。ソースコードはhttps://github.com/chongzhou96/MaskCLIPで入手可能です。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています