17日前

CAMP:テキスト-画像検索におけるクロスモーダル適応型メッセージ伝達

Zihao Wang, Xihui Liu, Hongsheng Li, Lu Sheng, Junjie Yan, Xiaogang Wang, Jing Shao
CAMP:テキスト-画像検索におけるクロスモーダル適応型メッセージ伝達
要約

テキスト-画像クロスモーダル検索は、言語と視覚の分野における挑戦的な課題である。従来の多数のアプローチは、画像と文を独立して統合埋め込み空間に埋め込み、それらの類似度を比較する方法を採用している。しかし、これらの手法は、統合空間における類似度計算の前段階で、画像と文の間の相互作用を十分に探求していない。直感的に言えば、画像と文のマッチングを行う際、人間は画像内の領域と文内の語を交互に注目し、両モダリティ間の相互作用を考慮して最も顕著な情報を選択する。本論文では、モダリティ間のメッセージ伝達における情報フローを適応的に制御する「クロスモーダル適応的メッセージ伝達(CAMP)」を提案する。本手法は、包括的かつ細粒度なクロスモーダル相互作用を考慮するだけでなく、適応的ゲーティング機構によりネガティブペアや関係のない情報を適切に処理する。さらに、従来のテキスト-画像マッチングにおける統合埋め込みアプローチとは異なり、融合特徴に基づいてマッチングスコアを推論し、訓練に向けた「最も困難なネガティブペアを用いたバイナリクロスエントロピー損失」を提案する。COCOおよびFlickr30kにおける実験結果は、最先端手法を顕著に上回り、本手法の有効性を実証している。

CAMP:テキスト-画像検索におけるクロスモーダル適応型メッセージ伝達 | 最新論文 | HyperAI超神経