6ヶ月前

セマンティックセグメンテーション

マルチモーダル

マルチモーダル

コンピュータビジョン

Shi-Min Hu Miao Wang Meng-Hao Guo Yi Zhang

概要

CLIPは、大規模な画像・テキストペアを用いた強力な事前学習により、視覚認識分野で顕著な進展を示している。しかし、依然として重要な課題が残っている：画像レベルの知識を、セマンティックセグメンテーションのようなピクセルレベルの理解タスクにどのように転移するかである。本論文では、この課題を解決するため、CLIPモデルの能力とゼロショットセマンティックセグメンテーションタスクの要件との間に存在するギャップを分析する。この分析と観察に基づき、我々は「CLIP-RC（CLIP with Regional Clues）」と名付けたゼロショットセマンティックセグメンテーションのための新規手法を提案する。本手法は以下の2つの主要な知見に基づいている。第一に、細粒度の意味情報を提供するために、領域レベルの橋渡し機構が不可欠である。第二に、学習段階において過剰適合（overfitting）を抑制する必要がある。これらの発見を活かしたCLIP-RCは、PASCAL VOC、PASCAL Context、COCO-Stuff 164Kを含むさまざまなゼロショットセマンティックセグメンテーションベンチマークにおいて、最先端の性能を達成した。コードは、https://github.com/Jittor/JSeg にて公開される予定である。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

セマンティックセグメンテーション

マルチモーダル

マルチモーダル

コンピュータビジョン

Shi-Min Hu Miao Wang Meng-Hao Guo Yi Zhang

概要

CLIPは、大規模な画像・テキストペアを用いた強力な事前学習により、視覚認識分野で顕著な進展を示している。しかし、依然として重要な課題が残っている：画像レベルの知識を、セマンティックセグメンテーションのようなピクセルレベルの理解タスクにどのように転移するかである。本論文では、この課題を解決するため、CLIPモデルの能力とゼロショットセマンティックセグメンテーションタスクの要件との間に存在するギャップを分析する。この分析と観察に基づき、我々は「CLIP-RC（CLIP with Regional Clues）」と名付けたゼロショットセマンティックセグメンテーションのための新規手法を提案する。本手法は以下の2つの主要な知見に基づいている。第一に、細粒度の意味情報を提供するために、領域レベルの橋渡し機構が不可欠である。第二に、学習段階において過剰適合（overfitting）を抑制する必要がある。これらの発見を活かしたCLIP-RCは、PASCAL VOC、PASCAL Context、COCO-Stuff 164Kを含むさまざまなゼロショットセマンティックセグメンテーションベンチマークにおいて、最先端の性能を達成した。コードは、https://github.com/Jittor/JSeg にて公開される予定である。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています