2ヶ月前

CLIPSelf: Vision Transformer が自己蒸留してオープンボキャブラリの密集予測を行う

Size Wu; Wenwei Zhang; Lumin Xu; Sheng Jin; Xiangtai Li; Wentao Liu; Chen Change Loy
CLIPSelf: Vision Transformer が自己蒸留してオープンボキャブラリの密集予測を行う
要約

オープンボキャブラリの密集予測タスク、特に物体検出や画像セグメンテーションは、コントラスティブ言語-画像事前学習(Contrastive Language-Image Pre-training: CLIP)の成功により進歩してきました。CLIPモデル、特にビジョントランスフォーマー(Vision Transformers: ViTs)を組み込んだものは、ゼロショット画像分類において優れた汎化能力を示しています。しかし、CLIPの視覚-言語アライメントを全画像表現から局所領域表現への転移を行う場合、CLIP ViTsは全体的な画像から局所的な画像領域へのドメインシフトに苦しみます。本論文では、オープンボキャブラリの密集予測タスクにおける下流処理に不可欠な地域-言語アライメントについて、CLIPモデルでの詳細な分析を行います。その後、任意の地域-テキストペアを必要とせずに、CLIP ViTの画像レベル認識能力を局所的な画像領域に適応させる手法であるCLIPSelfを提案します。CLIPSelfは、ViTsが自身の密集特徴マップから抽出した地域表現を対応する画像クロップの画像レベル表現とアライメントすることで、自己蒸留を可能にします。この強化されたCLIP ViTsにより、さまざまなベンチマークでオープンボキャブラリの物体検出、意味セグメンテーション、パノプティックセグメンテーションにおいて新しい最先端性能を達成しました。モデルとコードはhttps://github.com/wusize/CLIPSelf で公開されています。

CLIPSelf: Vision Transformer が自己蒸留してオープンボキャブラリの密集予測を行う | 最新論文 | HyperAI超神経