3ヶ月前

RTGen:オープンボリュームオブジェクト検出のための領域-テキストペア生成

Fangyi Chen, Han Zhang, Zhantao Yang, Hao Chen, Kai Hu, Marios Savvides
RTGen:オープンボリュームオブジェクト検出のための領域-テキストペア生成
要約

オープンボリュームオブジェクト検出(OVD)は、領域と意味の関係を堅固にモデル化する必要があり、これは大量の領域-テキストペアから学習可能である。しかし、顕著なアノテーションコストのため、実際にはこのようなデータは限られている。本研究では、スケーラブルなオープンボリューム領域-テキストペアを生成する手法であるRTGenを提案し、それがオープンボリュームオブジェクト検出の性能向上に寄与することを実証する。RTGenは、スケーラブルな画像-キャプションデータ上で、テキストから領域への生成と領域からテキストへの生成の両プロセスを含む。テキストから領域への生成は、シーンに配慮したインペイントガイド(scene-aware inpainting guider)によって制御された画像インペイント技術により実現され、全体的なレイアウトの調和を確保する。領域からテキストへの生成では、さまざまなプロンプトを用いた複数の領域レベルの画像キャプションを行い、CLIP類似度に基づいて最も適切なテキストを選定する。領域-テキストペアを用いた検出学習を促進するため、局所化品質に応じたオブジェクト候補を学習可能な「局所化に配慮した領域-テキスト対比損失(localization-aware region-text contrastive loss)」も導入する。広範な実験により、RTGenがオープンボリュームオブジェクト検出のためのスケーラブルで意味的に豊かかつ効果的なデータソースとして機能でき、データ量を増やすことでモデル性能が継続的に向上することを示した。これにより、従来の最先端手法と比較して優れた性能を達成した。