13日前

RegionCLIP：領域ベースの言語-画像事前学習

Yiwu Zhong, Jianwei Yang, Pengchuan Zhang, Chunyuan Li, Noel Codella, Liunian Harold Li, Luowei Zhou, Xiyang Dai, Lu Yuan, Yin Li, Jianfeng Gao

論文の詳細を見る

要約

対照的言語・画像事前学習（CLIP）は、画像・テキストペアを用いて、ゼロショットおよび転移学習の設定において、画像分類タスクで顕著な成果を上げている。しかしながら、本研究では、このようなモデルを物体検出における画像領域の認識に直接適用すると、ドメインのズレ（domain shift）のため、性能が著しく低下することを示す。具体的には、CLIPは画像全体をテキスト記述と一致させるように学習されているが、画像領域とテキスト部分（テキストスパン）の細粒度な対応関係を捉えていないためである。この問題を緩和するため、我々は新たな手法であるRegionCLIPを提案する。RegionCLIPは、CLIPの能力を大幅に拡張し、画像領域レベルの視覚表現を学習可能にすることで、画像領域とテキスト概念の細粒度な対応を実現する。本手法では、CLIPモデルを用いて画像領域とテンプレートキャプションをマッチングさせ、その後、その領域・テキストペアを特徴空間内で一致させるように事前学習を行う。この事前学習モデルをオープンボリューム物体検出タスクに転移した場合、COCOおよびLVISデータセットにおいて、それぞれ新規カテゴリに対して3.8 AP50および2.2 APの大幅な性能向上を達成し、最先端手法を大きく上回った。さらに、学習された領域表現はゼロショット推論に対応可能であり、COCOおよびLVISデータセットの両方で有望な結果を示した。本研究のコードは、https://github.com/microsoft/RegionCLIP にて公開されている。