言語によるビジョンの自由訓練組成画像検索

画像と目標の変更(例:エッフェル塔の画像と「人のいない夜間の」テキスト)が与えられた場合、組合せ的画像検索(Compositional Image Retrieval: CIR)はデータベースから関連する目標画像を検索することを目指します。監督学習アプローチでは、クエリ画像、テキストによる変更、および目標画像を含むトリプレットの注釈に依存しており、これはコストがかかります。しかし、最近の研究では大規模なビジョン言語モデル(Vision-Language Models: VLMs)を使用することでこの必要性を回避し、Zero-Shot CIR (ZS-CIR) を実現しています。しかしながら、ZS-CIR の最先端アプローチは依然として大量の画像-テキストペア上でタスク固有のカスタマイズされたモデルを訓練する必要があります。本研究では、訓練なしで CIR を達成するために Compositional Image Retrieval through Vision-by-Language (CIReVL) を提案します。これは単純でありながら人間が理解でき、拡張可能なパイプラインです。事前学習済みの生成型 VLM を使用して参照画像にキャプションを付与し、その後大規模言語モデル(Large Language Models: LLMs)にテキストによる目標変更に基づいてキャプションを再構成させることで、例えば CLIP などを通じて後続の検索を行うことでモジュール的な言語推論を達成します。4つの ZS-CIR ベンチマークにおいて競争力のある部分的に最先端の性能が得られました - 監督学習方法よりも改善しています。さらに、CIReVL のモジュール性により再訓練なしで簡単に拡張できることから、ZS-CIR のスケーリング法則やボトルネックを調査しつつ、従来報告された結果より最大で2倍以上の性能向上も可能となりました。最後に、CIReVL は言語領域でのモジュール的な画像とテキストの組合せを通じて CIR を人間が理解できるようにし、失敗ケースを事後に再調整できるようにしています。本研究のコードは受理され次第公開される予定です。