2ヶ月前
クロスモーダル活性補完学習と自己精緻化対応
Qin, Yang ; Sun, Yuan ; Peng, Dezhong ; Zhou, Joey Tianyi ; Peng, Xi ; Hu, Peng

要約
最近、画像とテキストのマッチングは、視覚と言語のモダリティ間の潜在的な対応関係を理解する基礎となるため、学術界および産業界からますます注目を集めています。しかし、既存の手法の多くは訓練ペアが適切に整列されていることを暗黙裡に前提としながら、普遍的に存在するアノテーションノイズ(いわゆるノイジーコレポンデンス(NC))を無視しています。これにより、性能低下が避けられません。一部の手法ではこのようなノイズに対処しようとしていますが、依然として2つの課題に直面しています:過度な記憶/過学習と高ノイズ下での信頼性の低いNC補正です。これらの課題を解決するために、私たちは一般化されたクロスモーダルロバスト相補学習フレームワーク(CRCL)を提案します。このフレームワークは、新しいアクティブ相補損失(ACL)と効率的な自己改善型対応補正(SCC)によって既存手法のロバスト性を向上させます。具体的には、ACLはアクティブ学習損失と相補学習損失を利用することで誤った教師付けを行うリスクを低減し、理論的にも実験的にもNCに対するロバスト性が示されています。SCCは動量補正を使用した複数の自己改善プロセスを利用して対応関係の受容野を拡大し、エラー蓄積を軽減し正確かつ安定した補正を達成します。私たちはFlickr30K、MS-COCO、CC152Kという3つの画像-テキストベンチマークデータセットで広範な実験を行い、我々のCRCLが合成ノイズおよび実世界におけるノイジーコレポンデンスに対して優れたロバスト性を持つことを確認しました。