16일 전

부분적으로 일치하지 않는 쌍을 이용한 다중모달 검색

{Xi Peng, Xu Wang, Dezhong Peng, Zhenyu Huang, Peng Hu}
초록

본 논문에서는 교차 모달 검색 분야에서 도전적이지만 여전히 다뤄지지 않은 문제인 부분적 불일치 쌍(Partially Mismatched Pairs, PMPs)을 연구한다. 구체적으로, 실세계 상황에서는 인터넷에서 수집된 방대한 다중미디어 데이터(예: Conceptual Captions 데이터셋)가 존재하기 때문에, 관련 없는 교차 모달 쌍을 잘못 매칭된 것으로 간주하는 것은 피할 수 없다. 이러한 PMP 문제는 교차 모달 검색 성능을 현저히 저하시킬 수밖에 없다. 이 문제를 해결하기 위해, 교차 모달 검색 리스크의 편향 없는 추정자( unbiased estimator)를 기반으로 하는 통합적인 이론적 강건 교차 모달 학습 프레임워크(Robust Cross-modal Learning, RCL)를 제안한다. 본 프레임워크는 교차 모달 검색 방법이 PMPs에 대해 강건해질 수 있도록 설계되었다. 구체적으로, RCL은 과적합과 과소적합 문제를 동시에 해결하기 위해 새로운 보완적 대조 학습(Complementary Contrastive Learning) 패러다임을 도입한다. 한편으로, 본 방법은 긍정 정보보다 훨씬 덜 오류가 발생할 가능성이 있는 부정 정보만을 활용함으로써, PMPs에 대한 과적합 문제를 피할 수 있다. 그러나 이러한 강건 전략은 과소적합 문제를 유발할 수 있어 모델 학습을 더 어렵게 만들 수 있다. 다른 한편으로, 약한 감독으로 인한 과소적합 문제를 해결하기 위해, 사용 가능한 모든 부정 쌍을 활용하여 부정 정보 내 포함된 감독 신호를 강화한다. 또한 성능을 추가로 향상시키기 위해, 어려운 샘플에 더 주목할 수 있도록 리스크의 상한값을 최소화하는 전략을 제안한다. 제안된 방법의 효과성과 강건성을 검증하기 위해, 이미지-텍스트 및 비디오-텍스트 검색 작업에 대해 다섯 가지 널리 사용되는 벤치마크 데이터셋에서 종합적인 실험을 수행하였으며, 9가지 최첨단 접근법과의 비교를 통해 그 우수성을 입증하였다. 관련 코드는 https://github.com/penghu-cs/RCL 에서 공개되어 있다.

부분적으로 일치하지 않는 쌍을 이용한 다중모달 검색 | 최신 연구 논문 | HyperAI초신경