Convolutions Die Hard: 単一の冷凍畳み込みCLIPを使用したオープンボキャブラリ分割

オープンボキャブラリ分割は、オープンセットのカテゴリから対象物を分割し認識するという課題であり、その難易度は高い。この課題に対処する一つの方法は、CLIPなどのマルチモーダルモデルを使用することである。これらのモデルは共有埋め込み空間で画像とテキストの特徴を提供し、クローズドボキャブラリ認識とオープンボキャブラリ認識のギャップを埋める。したがって、既存の手法ではしばしば二段階フレームワークが採用され、入力データがまずマスクジェネレータを通じて処理され、その後予測されたマスクとともにCLIPモデルに送られる。このプロセスには画像から複数回特徴を抽出する必要があり、効率的でないだけでなく非効果的でもある。これに対して、私たちは単一ステージフレームワークを構築することを提案する。これは共有フローズン畳み込みCLIPバックボーンを使用しており、現在の二段階パイプラインを大幅に簡素化するとともに、精度とコストのトレードオフにおいて優れた結果をもたらす。提案されるFC-CLIPは以下の観察に基づいて恩恵を受けている:フローズンCLIPバックボーンはオープンボキャブラリ分類の能力を維持しており、強力なマスクジェネレータとしても機能する。また、畳み込みCLIPはコントラスティブ画像-テキスト事前学習中に使用された解像度よりも大きな入力解像度にも良好に一般化できる。COCOパンオプティックデータのみで学習しゼロショット設定でテストした場合、FC-CLIPはADE20Kにおいて26.8 PQ(Panoptic Quality)、16.8 AP(Average Precision)、34.1 mIoU(mean Intersection over Union)を達成し、Mapillary Vistasでは18.2 PQと27.9 mIoU、Cityscapesでは44.0 PQと26.8 APおよび56.2 mIoUを達成した。これらはそれぞれADE20Kで+4.2 PQ、+2.4 AP、+4.2 mIoU、Mapillary Vistasで+4.0 PQ、Cityscapesで+20.1 PQという既存技術に対する大幅な改善である。さらに、FC-CLIPの学習時間とテスト時間は同じ既存技術よりも7.5倍と6.6倍速く、パラメータ数も5.9倍少ない。FC-CLIPはまた様々なオープンボキャブラリセマンティック分割データセットにおいて新しい最先端性能を示している。コード:https://github.com/bytedance/fc-clip