ReCon: 관계 일관성을 통한 진정한 대응 관계 구분 강화를 통한 강건한 노이즈 대응 관계 학습

다중모달 데이터셋 내에 일치하지 않는 데이터 쌍이 포함된 상황에서 진정한 대응 관계를 정확히 식별할 수 있을까? 기존의 방법들은 주로 다양한 모달 간 객체 표현 간의 유사성 매칭에 초점을 맞추고 있으나, 진정한 대응 관계와 거짓 대응 관계를 구분하는 데 특히 중요한 모달 내 관계 일관성( intra-modal relation consistency )을 간과할 수 있다. 이러한 간과는 음성 샘플을 양성으로 잘못 식별하는 위험을 초래할 수 있으며, 이는 예기치 않은 성능 저하로 이어진다. 이러한 문제를 해결하기 위해 우리는 다중모달 데이터 내 진정한 대응 관계를 정확히 구분할 수 있도록 하는 일반적인 관계 일관성 학습 프레임워크인 ReCon을 제안한다. 구체적으로, ReCon은 새로운 형태의 관계 일관성 학습을 활용하여, 서로 다른 모달 간의 교차모달 관계 일관성(cross-modal relation consistency)과 각 모달 내부의 내모달 관계 일관성(intra-modal relation consistency)을 동시에 보장하는 이중 정렬(dual-alignment)을 실현한다. 이러한 관계에 대한 이중 제약 덕분에 ReCon은 진정한 대응 관계 식별 능력이 크게 향상되어, 오류 있는 감독 신호를 유발할 수 있는 불일치 쌍을 신뢰성 있게 필터링할 수 있다. Flickr30K, MS-COCO, Conceptual Captions 등 널리 사용되는 세 가지 벤치마크 데이터셋을 대상으로 실시한 광범위한 실험을 통해 ReCon이 기존 최첨단(SOTA) 방법들에 비해 효과성과 우수성을 입증하였다. 코드는 다음 주소에서 확인할 수 있다: https://github.com/qxzha/ReCon.