HyperAIHyperAI

Command Palette

Search for a command to run...

テキストフィードバックを用いた視覚言語的アテンション学習による画像検索

Loris Bazzani Shaogang Gong Yanbei Chen

概要

テキストフィードバックを用いた画像検索は、eコマースやインターネット検索など、さまざまな実世界の応用において有望な影響をもたらしている。参照画像とユーザーからのテキストフィードバックが与えられた場合、目的は入力画像に類似する画像を検索するだけでなく、指定されたテキストに従って特定の側面を変化させた画像も取得することである。このタスクは、画像とテキストの両方に対する連携的な理解を必要とするため、非常に挑戦的である。本研究では、新たな視覚言語注意力学習(Visiolinguistic Attention Learning, VAL)フレームワークを提案することで、この課題に取り組む。具体的には、言語の意味に基づいて視覚特徴を選択的に保持・変換できる複合型トランスフォーマーを、CNNにシームレスに統合する手法を提案する。異なる深さに複数の複合型トランスフォーマーを挿入することで、VALは多スケールの視覚言語情報の統合を促進し、効果的な画像検索に適した表現を獲得することが可能となる。本研究では、Fashion200k、Shoes、FashionIQの3つのデータセットを用いて包括的な評価を実施した。広範な実験の結果、本モデルはすべてのデータセットにおいて既存手法を上回り、属性型記述や自然言語による記述を含む多様なテキストフィードバックに対しても一貫した優位性を示した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
テキストフィードバックを用いた視覚言語的アテンション学習による画像検索 | 記事 | HyperAI超神経