17日前

画像-テキストマッチング向けのプラグアンドプレイ型レギュレータ

Haiwen Diao, Ying Zhang, Wei Liu, Xiang Ruan, Huchuan Lu
画像-テキストマッチング向けのプラグアンドプレイ型レギュレータ
要約

細粒度の対応関係および視覚・意味の整合性を活用することは、画像-テキストマッチングにおいて大きな可能性を示している。一般的に、最近の手法はまずクロスモーダルアテンションユニットを用いて潜在的な領域-単語間の相互作用を捉え、その後すべての整合性を統合して最終的な類似度を算出する。しかし、多くの手法は複雑なアーキテクチャや追加情報に依存する一方で、ネットワークフィードバックの制御能力を無視している。本論文では、出力された情報を効率的にエンコードし、クロスモーダル表現の自動的な文脈化と統合を実現する、シンプルながら非常に効果的な2つのレギュレータを提案する。具体的には、(i) 再帰的対応レギュレータ(RCR)として、適応的なアテンション係数を用いてクロスモーダルアテンションユニットを段階的に強化し、より柔軟な対応関係を捉えることを可能にする。また、(ii) 再帰的統合レギュレータ(RAR)として、統合重みを繰り返し調整することで、重要な整合性を強調し、不重要なものには抑制を加える。さらに、RCRとRARは「プラグアンドプレイ」型であることが興味深い:クロスモーダル相互作用に基づく多くのフレームワークに容易に組み込むことができ、顕著な性能向上をもたらす。また、両者の協調によりさらなる改善が達成される。MSCOCOおよびFlickr30Kデータセットにおける広範な実験により、複数のモデルにおいて印象的かつ一貫したR@1スコアの向上が確認され、提案手法の汎用性と汎化能力が裏付けられた。コードおよび事前学習済みモデルは以下のURLで公開されている:https://github.com/Paranioar/RCAR。

画像-テキストマッチング向けのプラグアンドプレイ型レギュレータ | 最新論文 | HyperAI超神経