다중 모달 활성 보완 학습과 자기 개선 대응 관계

최근, 이미지-텍스트 매칭은 시각적 및 텍스트 모달리티 간의 잠재적인 대응 관계를 이해하는 기초가 되어 학계와 산업계에서 점점 더 많은 관심을 받고 있습니다. 그러나 대부분의 기존 방법은 훈련 쌍이 잘 일치한다고 암시적으로 가정하면서 일반적인 주석 노이즈, 즉 노이즈 대응(NC)을 무시하기 때문에 성능 저하를 피할 수 없습니다. 일부 방법들은 이러한 노이즈를 해결하려는 시도를 하고 있지만, 여전히 두 가지 어려운 문제에 직면해 있습니다: 과다한 기억/과적합과 특히 높은 노이즈 하에서 신뢰할 수 없는 NC 수정입니다.이러한 두 문제를 해결하기 위해, 우리는 일반화된 다중 모달 강건 보완 학습 프레임워크(Cross-modal Robust Complementary Learning, CRCL)를 제안합니다. 이 프레임워크는 새로운 활성 보완 손실(Active Complementary Loss, ACL)과 효율적인 자기 정제 대응 수정(Self-refining Correspondence Correction, SCC)을 통해 기존 방법들의 강건성을 개선합니다. 구체적으로, ACL은 활성 및 보완 학습 손실을 활용하여 잘못된 지도 제공 위험을 줄여 이론적 및 실험적으로 NC에 대한 강건성을 입증하였습니다. SCC는 모멘텀 수정을 사용한 여러 자기 정제 과정을 통해 대응 수정의 수용 범위를 확대하여 오류 누적을 완화하고 정확하고 안정적인 수정을 달성합니다.우리는 Flickr30K, MS-COCO, 그리고 CC152K라는 세 가지 이미지-텍스트 벤치마크에서 광범위한 실험을 수행하여 우리의 CRCL이 합성적 및 실제 세계의 노이즈 대응에 대해 우수한 강건성을 갖음을 검증하였습니다.