11日前

CLIPにおける地域的ヒントの探索によるゼロショットセマンティックセグメンテーション

{Shi-Min Hu, Miao Wang, Meng-Hao Guo, Yi Zhang}
CLIPにおける地域的ヒントの探索によるゼロショットセマンティックセグメンテーション
要約

CLIPは、大規模な画像・テキストペアを用いた強力な事前学習により、視覚認識分野で顕著な進展を示している。しかし、依然として重要な課題が残っている:画像レベルの知識を、セマンティックセグメンテーションのようなピクセルレベルの理解タスクにどのように転移するかである。本論文では、この課題を解決するため、CLIPモデルの能力とゼロショットセマンティックセグメンテーションタスクの要件との間に存在するギャップを分析する。この分析と観察に基づき、我々は「CLIP-RC(CLIP with Regional Clues)」と名付けたゼロショットセマンティックセグメンテーションのための新規手法を提案する。本手法は以下の2つの主要な知見に基づいている。第一に、細粒度の意味情報を提供するために、領域レベルの橋渡し機構が不可欠である。第二に、学習段階において過剰適合(overfitting)を抑制する必要がある。これらの発見を活かしたCLIP-RCは、PASCAL VOC、PASCAL Context、COCO-Stuff 164Kを含むさまざまなゼロショットセマンティックセグメンテーションベンチマークにおいて、最先端の性能を達成した。コードは、https://github.com/Jittor/JSeg にて公開される予定である。

CLIPにおける地域的ヒントの探索によるゼロショットセマンティックセグメンテーション | 最新論文 | HyperAI超神経