8ヶ月前

概要

画像検索、つまり参照画像が与えられた場合に望む画像を見つけることには、単なる画像ベースの指標だけでは捉えきれない豊かで多面的な検索意図が内在しています。最近の研究では、テキスト指示を活用してユーザーがより自由に検索意図を表現できるようにしています。しかし、これらの研究は主に視覚的に類似しているか、または少数の事前定義された関係で特徴付けられる画像ペアに焦点を当てています。本論文の中心的な主張は、テキスト指示が視覚的類似性を超えた豊かな関係を持つ画像の検索を可能にするというものです。これを示すために、私たちは MagicLens（マジックレンズ）と呼ばれる一連の自己監督型画像検索モデルを導入します。MagicLens は重要な新規洞察に基づいて構築されています：同じウェブページ上で自然に発生する画像ペアには広範な暗黙の関係（例：内部ビュー）が含まれており、基礎モデルを通じて指示を合成することでこれらの暗黙の関係を明示化することができます。3670万件の（クエリ画像、指示、対象画像）トリプレットから抽出した豊かな意味論的関係に基づいて訓練された MagicLens は、8つの異なる画像検索タスクに関するベンチマークにおいて既存の最良手法と同等かそれ以上の結果を達成し、さらに大幅に小型化されたモデルサイズで高いパラメータ効率を維持しています。140万件の未見画像コーパスに対する追加の人間による分析もまた、MagicLens がサポートする検索意図の多様性を示しています。コードとモデルは公開されており、https://open-vision-language.github.io/MagicLens/ からアクセスできます。

ソースPDF