ノイズ混在の対応関係からの学習:三分割を用いたクロスモーダルマッチング
高コストなラベル付けのため、視覚テキストデータセットに一定割合のノイズ付き対応関係を含めることが避けがたく、これによりクロスモーダルマッチングにおけるモデルのロバスト性が低下する。近年の手法では、データセットをクリーンなペアとノイズのあるペアに分類することで、有望な成果を上げているが、依然として深層ニューラルネットワークがノイズ付き対応関係に過学習してしまう問題を抱えている。特に、部分的に関連する意味論的対応関係を持つ類似したポジティブペアは、慎重な選択が行われない限り誤ってノイズペアサブセットに分類されやすく、ロバストな学習に悪影響を及ぼす。一方、部分的に関連する意味論的対応を持つ類似したネガティブペアは、共通空間学習における距離関係を曖昧にし、性能の安定性を損なう。こうした粗粒度なデータセット分割問題を解決するために、本研究ではニューラルネットワークの記憶効果と予測不一致に基づき、訓練データセットをクリーンペア、ハードペア、ノイズペアの三つのサブセットに分割する「対応関係三分割修正器(Correspondence Tri-Partition Rectifier, CTPR)」を提案する。その後、各サブセットに対して対応関係ラベルを精緻化し、視覚テキストペア間の実際の意味論的対応を正確に表現する。修正されたアノンクスとハードネガティブペアのラベル差を、共教師学習(co-teaching)的なアプローチに基づく改善型トライプルット損失における適応的マージンとして再定式化する。本手法の有効性とロバスト性を検証するため、画像-テキストマッチングおよび動画-テキストマッチングの二つの事例を用いて実験を実施した。Flickr30K、MS-COCO、MSR-VTT、LSMDCの各データセットにおける広範な実験結果から、本手法が視覚テキストペアを意味論的対応に基づいて正確に分割でき、ノイズを含むデータでの学習において性能の向上を達成できることを確認した。