
要約
テキスト誘導型画像検索は、ユーザーの意図をより正確に捉えるために条件付きテキストを組み込むことを目的とする。従来の手法は、与えられた三つ組 $\langle$ソース画像、ソーステキスト、ターゲット画像$\rangle$ を用いて、ソース入力とターゲット画像間の埋め込み距離を最小化することに焦点を当てていた。しかし、このような三つ組最適化は、学習された検索モデルがより詳細なランク付け情報を捉える能力を制限する可能性がある。たとえば、三つ組は一対一の対応関係に限定され、フィードバック言語や画像における意味的多様性に起因する多対多の対応関係を十分に扱えない。より多くのランク付け情報を捉えるために、本研究では、提供された三つ組のみを用いて多対多の対応関係をモデル化する新たなランク認識型不確実性アプローチを提案する。本手法では、不確実性学習を導入し、特徴量の確率的ランクリストを学習する。具体的には、以下の3つの主要な構成要素からなる:(1)インサンプル不確実性:結合された特徴量とターゲット特徴量から導かれるガウス分布を用いて、意味的多様性を捉える;(2)クロスサンプル不確実性:他のサンプルの分布からさらにランク付け情報を抽出する;(3)分布正則化:ソース入力とターゲット画像の分布表現を一致させる。従来の最先端手法と比較して、本手法は合成画像検索を対象とした2つの公開データセットにおいて、顕著な性能向上を達成した。