17日前

DetCLIPv2：ワード・リージョン整合を活用したスケーラブルなオープンボリューム物体検出の事前学習

Lewei Yao, Jianhua Han, Xiaodan Liang, Dan Xu, Wei Zhang, Zhenguo Li, Hang Xu

要約

本稿では、大規模な画像-テキストペアを活用してオープンボリューム物体検出（OVD）を実現する効率的かつスケーラブルな学習フレームワークであるDetCLIPv2を提案する。従来のOVDフレームワークが一般的に事前学習済みの視覚言語モデル（例：CLIP）に依存するか、擬似ラベル付けプロセスを用いて画像-テキストペアを活用するのに対し、DetCLIPv2はエンドツーエンドの枠組みで、巨視的な画像-テキストペアから微細な語彙-領域対応を直接学習する。この目的を達成するために、領域提案とテキスト語との間の最大語彙-領域類似度を用いて対照的学習の目的関数をガイドする。広範な概念を学ぶ一方で領域局在能力を獲得できるようにするため、DetCLIPv2は一貫したデータ定式化の下で、検出、領域マッチング、画像-テキストペアデータのハイブリッドな教師信号に基づいて学習を行う。交差学習スキームを採用し、画像-テキストペアには低解像度入力を用いることで、DetCLIPv2は画像-テキストペアデータを効率的かつ効果的に活用する。訓練時間は類似する条件下で、DetCLIPに比べて13倍の画像-テキストペア（13M）を用いることができ、性能も向上する。事前学習に1300万枚の画像-テキストペアを用いたDetCLIPv2は、優れたオープンボリューム物体検出性能を示す。例えば、Swin-Tバックボーンを用いたDetCLIPv2はLVISベンチマークにおいて40.4%のゼロショットAPを達成し、従来の手法であるGLIP/GLIPv2/DetCLIPをそれぞれ14.4/11.4/4.5%のAP差で上回り、さらに完全教師ありの対応手法に対しても大幅な性能優位を示している。