
초록
다중 모드 학습이 크로스-모달 검색 작업에서 성공을 거두었음에도 불구하고, 이러한 뛰어난 진전은 멀티미디어 데이터 간의 올바른 대응 관계에 크게 의존하고 있습니다. 그러나 이와 같은 이상적인 데이터를 수집하는 것은 비용이 많이 들고 시간이 소요되는 작업입니다. 실제로 가장 널리 사용되는 데이터셋들은 인터넷에서 수집되며, 불가피하게 일치하지 않는 쌍들을 포함하고 있습니다. 이러한 노이즈가 있는 대응 데이터셋으로 훈련하면, 크로스-모달 검색 방법들이 일치하지 않는 데이터를 유사하다고 잘못 강제할 수 있어 성능 저하를 초래합니다. 이 문제를 해결하기 위해 우리는 신뢰할 수 있는 유사도 점수를 제공하는 메타 유사도 교정 네트워크(Meta Similarity Correction Network, MSCN)를 제안합니다. 우리는 양성 및 음성 메타데이터로부터 차별성을 학습하도록 MSCN을 격려하는 메타 프로세스로 이진 분류 작업을 보았습니다. 노이즈의 영향을 더욱 완화하기 위해, 우리는 메타데이터를 사전 지식으로 사용하여 노이즈 샘플을 제거하는 효과적인 데이터 정제 전략을 설계하였습니다. 합성적이고 실제 세계의 노이즈 환경 모두에서 우리의 방법의 우수성을 입증하기 위해 광범위한 실험이 수행되었습니다. 실험은 Flickr30K, MS-COCO, Conceptual Captions 등의 데이터셋을 포함합니다.