
要約
テキストフィードバックを用いた画像検索は、eコマースやインターネット検索など、さまざまな実世界の応用において有望な影響をもたらしている。参照画像とユーザーからのテキストフィードバックが与えられた場合、目的は入力画像に類似する画像を検索するだけでなく、指定されたテキストに従って特定の側面を変化させた画像も取得することである。このタスクは、画像とテキストの両方に対する連携的な理解を必要とするため、非常に挑戦的である。本研究では、新たな視覚言語注意力学習(Visiolinguistic Attention Learning, VAL)フレームワークを提案することで、この課題に取り組む。具体的には、言語の意味に基づいて視覚特徴を選択的に保持・変換できる複合型トランスフォーマーを、CNNにシームレスに統合する手法を提案する。異なる深さに複数の複合型トランスフォーマーを挿入することで、VALは多スケールの視覚言語情報の統合を促進し、効果的な画像検索に適した表現を獲得することが可能となる。本研究では、Fashion200k、Shoes、FashionIQの3つのデータセットを用いて包括的な評価を実施した。広範な実験の結果、本モデルはすべてのデータセットにおいて既存手法を上回り、属性型記述や自然言語による記述を含む多様なテキストフィードバックに対しても一貫した優位性を示した。