
クロスモーダルマッチングは、異なるモダリティ間の対応関係を確立することを目的とする技術であり、クロスモーダル検索や視覚言語理解といった多様なタスクにおいて基盤的な役割を果たす。近年、多数のクロスモーダルマッチング手法が提案され、顕著な進展が見られているものの、これらの手法のほとんどは、マルチモーダルな学習データが正しく対応付けられていることを暗黙の前提としている。しかし実際には、このような仮定を満たすことは極めて高コストであり、場合によっては不可能である。この観察に基づき、本研究はクロスモーダルマッチングにおける潜在的かつ挑戦的な新分野——「ノイズ付き対応(noisy correspondence)」——を明らかにし、その分析を行う。このノイズ付き対応は、新たな形態のノイズラベルと捉えることができる。従来のノイズラベルが主にカテゴリラベルの誤りを指すのに対し、本研究におけるノイズ付き対応は、ペアリングが不一致であるサンプルを指す。この新規問題に対処するため、我々は「ノイズ付き対応補正器(Noisy Correspondence Rectifier, NCR)」と呼ばれる、ノイズ付き対応を用いた学習のための新たな手法を提案する。NCRは、ニューラルネットワークの記憶効果に基づいてデータをクリーンな部分とノイズを含む部分に分離し、共教師学習(co-teaching)の枠組みで適応的な予測モデルを用いて対応関係を補正する。本手法の有効性を検証するため、画像-テキストマッチングを具体例として実験を実施した。Flickr30K、MS-COCO、Conceptual Captionsの3つのデータセットにおける広範な実験結果から、本手法の有効性が実証された。コードは、www.pengxi.me から公開されている。