
要約
マルチモーダル学習がクロスモーダル検索タスクにおいて成功を収めているものの、その著しい進歩はマルチメディアデータ間の正確な対応に依存しています。しかし、理想的なデータを収集することは高コストかつ時間のかかる作業です。実際には、多くの広く使用されているデータセットはインターネットから収集されており、必ずしも不一致のペアを含まないわけではありません。このようなノイジーな対応データセットでの学習は、クロスモーダル検索手法が不一致のデータを誤って類似とみなすため、性能の低下を引き起こします。この問題に対処するため、我々は信頼性のある類似度スコアを提供するメタ類似度訂正ネットワーク(Meta Similarity Correction Network: MSCN)を提案します。二値分類タスクをメタプロセスとして捉え、MSCNがポジティブおよびネガティブのメタデータから判別学習を行うことを促します。さらにノイズの影響を軽減するために、メタデータを事前知識として使用してノイジーなサンプルを取り除く効果的なデータ浄化戦略を設計しました。合成ノイズと実世界ノイズの両方における当手法の強みを示すために、Flickr30K、MS-COCO、Conceptual Captions を使用した広範な実験を行いました。