불일치된 쌍을 재매칭하는 법 배우기: 강건한 크로스 모달 검색을 위한 방법

적절한 멀티미디어 데이터셋을 수집하는 것은 크로스-모달 검색 모델을 훈련시키는 데 있어 매우 중요합니다. 그러나 실제 환경에서는 인터넷에서 대량의 멀티모달 데이터를 수집하는데, 이 과정에서 부분적으로 일치하지 않는 쌍(Partially Mismatched Pairs, PMPs)이 불가피하게 포함됩니다. 이러한 의미상 관련성이 없는 데이터는 크로스-모달 검색 성능에 크게 해를 끼칠 것입니다. 이전 연구들은 이 문제를 완화하기 위해 PMPs의 기여도를 낮추는 부드러운 대응 관계를 추정하는 방향으로 접근하였습니다. 본 논문에서는 새로운 시각에서 이 도전과제를 해결하고자 합니다: 일치하지 않는 샘플들 사이에도 잠재적인 의미적 유사성이 존재하여, 일치하지 않는 쌍들로부터 유용한 지식을 발굴할 수 있습니다. 이를 달성하기 위해, 우리는 최적 운송(Optimal Transport, OT) 기반의 일반적인 프레임워크인 L2RM을 제안합니다. 구체적으로, L2RM은 다른 모달 간의 최소 비용 운송 계획을 찾아내어 개선된 정렬을 생성하는 것을 목표로 합니다. OT에서 재매칭 아이디어를 형식화하기 위해, 첫째, 명시적인 유사성-비용 매핑 관계로부터 자동으로 학습하는 자기 감독 비용 함수(self-supervised cost function)를 제안합니다. 둘째, 거짓 양성(false positives) 간의 운송을 제한하면서 부분적인 OT 문제(partial OT problem)를 모델링하여 더욱 개선된 정렬을 강화합니다. 세 가지 벤치마크에서 수행된 광범위한 실험 결과, 우리의 L2RM이 기존 모델들의 PMPs에 대한 견고성을 크게 향상시킨다는 것을 입증하였습니다. 코드는 https://github.com/hhc1997/L2RM에서 제공됩니다.