HyperAIHyperAI

Command Palette

Search for a command to run...

MagicLens: オープンエンドの指示による自己監督型画像検索

Kai Zhang Yi Luan Hexiang Hu Kenton Lee Siyuan Qiao Wenhu Chen Yu Su Ming-Wei Chang

概要

画像検索、つまり参照画像が与えられた場合に望む画像を見つけることには、単なる画像ベースの指標だけでは捉えきれない豊かで多面的な検索意図が内在しています。最近の研究では、テキスト指示を活用してユーザーがより自由に検索意図を表現できるようにしています。しかし、これらの研究は主に視覚的に類似しているか、または少数の事前定義された関係で特徴付けられる画像ペアに焦点を当てています。本論文の中心的な主張は、テキスト指示が視覚的類似性を超えた豊かな関係を持つ画像の検索を可能にするというものです。これを示すために、私たちは MagicLens(マジックレンズ)と呼ばれる一連の自己監督型画像検索モデルを導入します。MagicLens は重要な新規洞察に基づいて構築されています:同じウェブページ上で自然に発生する画像ペアには広範な暗黙の関係(例:内部ビュー)が含まれており、基礎モデルを通じて指示を合成することでこれらの暗黙の関係を明示化することができます。3670万件の(クエリ画像、指示、対象画像)トリプレットから抽出した豊かな意味論的関係に基づいて訓練された MagicLens は、8つの異なる画像検索タスクに関するベンチマークにおいて既存の最良手法と同等かそれ以上の結果を達成し、さらに大幅に小型化されたモデルサイズで高いパラメータ効率を維持しています。140万件の未見画像コーパスに対する追加の人間による分析もまた、MagicLens がサポートする検索意図の多様性を示しています。コードとモデルは公開されており、https://open-vision-language.github.io/MagicLens/ からアクセスできます。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています