CLIM:領域表現のための対照的言語・画像モザイク

大規模またはオープンボキャブラリーからの物体を正確に検出するには、領域表現における視覚-言語の整合性(vision-language alignment)が不可欠である。しかし、テキストラベルや記述を伴う高品質なボックスアノテーションを取得することで、このような領域-テキストの整合性を学習することは、費用が高く、実用上困難である。一方で、画像-テキストペアの収集は比較的容易であるが、物体の正確な位置情報が欠落しているため、領域とテキストを正確に紐づけることが難しい。本論文では、大規模な画像-テキストペアを効果的に活用し、領域表現とテキスト表現の整合性を学習する新たなアプローチ、対照的視覚-言語モザイク(Contrastive Language-Image Mosaic, CLIM)を提案する。CLIMは複数の画像をモザイク化した画像を生成し、各画像を「仮想領域(pseudo region)」として扱う。各仮想領域の特徴量を抽出し、対照学習(contrastive loss)により、対応するテキスト埋め込みと類似するが、他のテキスト埋め込みとは異なるように学習させることで、高コストなボックスアノテーションを必要とせずに領域-テキストの整合性を学習可能となる。このアプローチは汎用性が高く、キャプション監視を利用するさまざまなオープンボキャブラリー物体検出手法において一貫して性能を向上させる。さらに、CLIMは視覚-言語モデルの領域表現を効果的に強化でき、結果としてより強力なバックボーンとしてオープンボキャブラリー物体検出器に貢献する。実験結果から、CLIMはOV-COCOおよびOV-LVISの両ベンチマークにおいて、さまざまなベースラインモデルの性能を大幅に向上させることを示した。コードは https://github.com/wusize/CLIM にて公開されている。