16일 전

노이즈 있는 대응을 통한 다중모달 매칭 학습

{Xi Peng, Hua Wu, Xinyan Xiao, Wenbiao Ding, Xiao Liu, guocheng niu, Zhenyu Huang}
노이즈 있는 대응을 통한 다중모달 매칭 학습
초록

다양한 작업, 예를 들어 크로스모달 검색 및 시각-언어 이해 등에서 핵심적인 역할을 하는 크로스모달 매칭은 두 가지 다른 모달 간의 대응 관계를 설정하는 것을 목표로 한다. 최근 몇 년간 수많은 크로스모달 매칭 기법이 제안되었으며, 상당한 성과를 거두었지만, 이들 대부분은 다중모달 학습 데이터가 이미 정확히 정렬되어 있다고 암묵적으로 가정하고 있다. 그러나 실제 상황에서는 이러한 가정을 만족시키는 것이 매우 비용이 크거나 심지어 불가능하다. 이러한 관찰을 바탕으로, 우리는 크로스모달 매칭 분야에서 잠재적이고 도전적인 새로운 방향, 즉 '노이즈 있는 대응 관계(noisy correspondence)'를 제기하고 연구한다. 이는 새로운 형태의 노이즈 레이블로 간주될 수 있다. 기존의 노이즈 레이블이 주로 카테고리 레이블의 오류를 의미하는 반면, 우리의 노이즈 있는 대응 관계는 쌍으로 매칭된 샘플 간의 불일치를 의미한다. 이 새로운 문제를 해결하기 위해, 우리는 노이즈 있는 대응 관계를 학습하는 데 효과적인 새로운 방법을 제안한다. 이를 '노이즈 대응 보정기(Noyse Correspondence Rectifier, NCR)'라고 명명한다. 간략히 말해, NCR는 신경망의 기억 효과를 기반으로 데이터를 정제된 부분과 노이즈가 포함된 부분으로 분할한 후, 공동 학습(co-teaching) 방식으로 적응형 예측 모델을 사용하여 대응 관계를 보정한다. 제안된 방법의 효과를 검증하기 위해 이미지-텍스트 매칭을 사례로 실험을 수행하였으며, Flickr30K, MS-COCO, Conceptual Captions에서 실시한 광범위한 실험을 통해 본 방법의 유효성을 입증하였다. 코드는 www.pengxi.me 에서 접근할 수 있다.

노이즈 있는 대응을 통한 다중모달 매칭 학습 | 최신 연구 논문 | HyperAI초신경