2ヶ月前

部分不一致ペアを伴うクロスモーダル検索

{Xi Peng, Xu Wang, Dezhong Peng, Zhenyu Huang, Peng Hu}
部分不一致ペアを伴うクロスモーダル検索
要約

本稿では、クロスモーダル検索において困難ではあるが、それまであまり注目されてこなかった問題、すなわち部分的不一致ペア(Partially Mismatched Pairs: PMPs)について研究する。具体的には、現実世界のシナリオにおいて、インターネットから大量のマルチメディアデータ(例えばConceptual Captionsデータセット)が収集されるため、関連のないクロスモーダルペアを誤って一致ペアとして扱ってしまうことは避けがたい。このようなPMP問題は、明らかにクロスモーダル検索の性能を著しく低下させる。この問題に対処するため、我々は、クロスモーダル検索リスクの不偏推定量を用いた統一的な理論的枠組みであるロバストクロスモーダル学習フレームワーク(Robust Cross-modal Learning: RCL)を導出する。このRCLは、PMPに対する耐性を有するクロスモーダル検索手法を実現することを目的としている。詳細には、本手法は、過適合と未適合の2つの課題に対処するため、新たな補完的対比学習パラダイムを採用する。一方で、正例情報に比べて誤りの可能性がはるかに低い負例情報のみを用いることで、PMPに対する過適合を回避する。しかし、こうしたロバストな戦略は、未適合の問題を引き起こす可能性があるため、モデルの学習を困難にする。他方で、弱教師信号によって引き起こされる未適合問題に対処するため、利用可能なすべての負例ペアを活用し、負例情報に含まれる教師信号を強化する手法を提案する。さらに、性能を向上させるために、困難なサンプルに注目するため、リスクの上界を最小化する戦略を導入する。提案手法の有効性とロバスト性を検証するため、画像-テキストおよび動画-テキスト検索タスクにおいて、9つの最先端手法と比較して、5つの広く用いられるベンチマークデータセット上で包括的な実験を実施した。実装コードは、https://github.com/penghu-cs/RCL にて公開されている。