HyperAIHyperAI

Command Palette

Search for a command to run...

組合画像検索のためのテキストエンコーダーのタスク不一致を低減する効率的なポストホックフレームワーク

Jaeseok Byun; Seokhyeon Jeong; Wonjae Kim; Sanghyuk Chun; Taesup Moon

概要

合成画像検索(Composed Image Retrieval, CIR)は、参照画像と条件付けテキストを基に目標の画像を検索することを目指し、制御可能な画像検索を可能にします。主流のゼロショット(Zero-Shot, ZS)CIR手法は、画像埋め込みをテキストトークン埋め込み空間に射影することで、訓練に高コストがかかるCIR三つ組の必要性を回避し、検索用の合成クエリを形成します。しかし、これらの射影ベースのCIRには固有の制限があります。すなわち、エンコーダーの元々の事前学習タスク(テキスト \leftrightarrow 画像)と目標とするCIRタスク(画像 + テキスト \leftrightarrow 画像)との間でテキストエンコーダーが担うタスクに乖離があり、これがCIR性能に悪影響を与える可能性があるということです。このような乖離を軽減するために、単純な解決策としては、画像エンコーダーとテキストエンコーダーをCIR三つ組を使用して監督的に訓練することが考えられます。しかし、代わりに私たちは「テキストエンコーダーのタスク乖離軽減」(Reducing Task Discrepancy of Text Encoders, RTD)という効率的なテキストのみの後処理フレームワークを提案します。これは射影ベースのCIR手法を補完するものです。私たちは新しい目標アンカー付きテキストコントラスティブ学習を開発し、これによりテキストエンコーダーがCIRのために持つ能力を向上させることを目指しました。さらに、以下の2つの重要な改良点も提案しています:(1) 難易度の高いネガティブサンプルに基づく洗練されたバッチサンプリング戦略と (2) 学習-推論乖離をさらに軽減するための洗練された連結スキームです。RTDを最先端の射影ベース手法に統合することで、4つのA100 GPUを使用して23分間追加で訓練するだけで、リソース集約型の最先端合成CIR三つ組ベースアプローチと同等かそれ以上の性能が得られます(最大で学習速度が100×100\times100×速くなります)。当研究に関するコードは受理され次第公開いたします。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています