
要約
本論文では、多モーダル(画像-テキスト)クエリに基づいてデータベースから画像を検索する問題について調査を行いました。具体的には、クエリのテキストがクエリ画像にいくつかの変更を加えることを示し、その変更が施された望ましい画像を検索することが目的です。例えば、Eコマースプラットフォームのユーザーが友人のドレスと似ているが、白でリボンのサッシュがついたドレスを購入したい場合、アルゴリズムはクエリのドレスに対して望まれた変更が施されたいくつかのドレスを検索することを目指します。我々は、ComposeAEという名前のオートエンコーダーベースモデルを提案し、画像とテキストクエリの合成を学習して画像を検索します。深層計量学習アプローチを採用し、ソース画像とテキストクエリの合成がターゲット画像に近づくように計量を学習します。また、最適化問題に対する回転対称制約も提案しています。我々の手法はMIT-States, Fashion200k, Fashion IQという3つのベンチマークデータセットにおいて現行最良の手法TIRG \cite{TIRG} を上回る性能を示しました。公平な比較を行うために、TIRG手法を強化した強力なベースラインも導入しました。結果の再現性を確保するために、コードを以下に公開しています: \url{https://github.com/ecom-research/ComposeAE}。