CoVR-2: 構成ビデオ検索のための自動データ構築

合成画像検索(Composed Image Retrieval: CoIR)は、テキストと画像の両方を考慮に入れてデータベースから関連する画像を検索するタスクとして、最近注目を集めています。多くのCoIR手法では、クエリ画像から対象画像への変更点を説明するテキストを含む手動でアノテーションされたデータセット(画像-テキスト-画像の三つ組)が必要です。しかし、CoIR三つ組の手動キュレーションは高コストであり、スケーラビリティを阻害しています。本研究では、代わりにビデオ-キャプションペアから三つ組を生成し、タスクの範囲を合成ビデオ検索(Composed Video Retrieval: CoVR)にも拡大するスケーラブルな自動データセット作成方法論を提案します。この目的のために、大規模なデータベースから類似したキャプションを持つペアのビデオを抽出し、大規模言語モデルを使用して対応する変更テキストを生成します。この方法論をWebVid2Mコレクションに適用することで、160万件の三つ組からなるWebVid-CoVRデータセットを自動的に構築しました。さらに、手動でアノテーションされた評価セットとともに新しいCoVRベンチマークを導入し、基線結果も提供しています。また、Conceptual Captionsデータセットを使用して330万件のCoIR学習用三つ組を生成することにより、当社の方法論が画像-キャプションペアにも同等に適用可能であることを確認しました。当社のモデルはBLIP-2事前学習に基づいており、合成ビデオ(または画像)検索に適応させるとともに、トリプレット以外の追加的な教師信号を利用するためのキャプション検索損失も取り入れています。新規CoVRベンチマークにおける設計選択肢について広範な解析を行った結果も提供しています。実験では、当社のデータセット上でCoVRモデルを学習することでゼロショット設定においてCIRR, FashionIQ, およびCIRCOベンチマークでの最先端性能が向上することも示されました。当社のコード、データセット、およびモデルは公開されており、https://imagine.enpc.fr/~ventural/covr/ で利用可能です。