2ヶ月前
学習による不一致ペアの再マッチングと堅牢なクロスモーダル検索
Han, Haochen ; Zheng, Qinghua ; Dai, Guang ; Luo, Minnan ; Wang, Jingdong

要約
適切なマルチメディアデータセットの収集は、クロスモーダル検索モデルの訓練において極めて重要です。しかし、実世界のシナリオでは、インターネットから大量のマルチモーダルデータが収集されますが、これには部分的に不一致なペア(Partially Mismatched Pairs: PMPs)が含まれることが避けられません。このような意味論的に無関係なデータは、クロスモーダル検索性能に著しく悪影響を及ぼします。これまでの研究では、この問題を緩和するために、PMPsの寄与度を低減するソフト対応を推定することを目指してきました。本論文では、この課題に新しい視点から取り組みます:未対応サンプル間の潜在的な意味的類似性を利用して、不一致なペアから有用な知識を抽出することが可能となります。これを達成するために、最適輸送(Optimal Transport: OT)に基づく一般的なフレームワークであるL2RMを提案します。具体的には、L2RMは異なるモーダル間で最小コストの輸送計画を見つけることで洗練されたアライメントを生成することを目指しています。OTにおける再マッチングアイデアを形式化するために、まず自動的に明示的な類似度-コストマッピング関係から学習する自己監督型コスト関数を提案します。次に、偽陽性間の輸送を制限しながら部分的なOT問題をモデル化することで、さらに洗練されたアライメントを向上させる方法を提示します。3つのベンチマークでの広範な実験により、L2RMが既存モデルに対するPMPsへの堅牢性を大幅に向上させることを示しています。コードは https://github.com/hhc1997/L2RM で利用可能です。