16일 전

노이지 대응을 활용한 심층 증거 기반 학습을 통한 다중모달 검색

{Peng Hu, Xu Wang, Xi Peng, Dezhong Peng, Yang Qin}
초록

다중모달 커뮤니티에서 크로스모달 검색은 매력적인 주제로 부상하고 있다. 최근에는 데이터 수집의 높은 비용을 줄이기 위해 인터넷에서 이미지와 텍스트와 같은 공존 쌍(예: 이미지-텍스트 쌍)을 대규모 크로스모달 데이터셋으로 수집하는 방식이 등장하였으며, 예를 들어 Conceptual Captions와 같은 데이터셋이 대표적이다. 그러나 이러한 방법은 불가피하게 학습 데이터에 노이즈(즉, 일치하지 않는 쌍)를 포함하게 되어 '노이즈 있는 대응관계(noisy correspondence)'라는 문제를 야기한다. 이러한 노이즈는 지도 정보의 신뢰성과 정확성을 저하시켜 성능을 크게 떨어뜨리는 원인이 된다. 게다가 기존 대부분의 방법들은 하드 네거티브(hard negatives)에 초점을 맞춰 학습을 진행하는 반면, 이는 노이즈의 신뢰성 저하 문제를 더욱 악화시킨다. 이러한 문제를 해결하기 위해 우리는 일반화된 심층 증거 기반 크로스모달 학습 프레임워크(Generalized Deep Evidential Cross-modal Learning, DECL)를 제안한다. 이 프레임워크는 새로운 크로스모달 증거 학습 패러다임(Cross-modal Evidential Learning, CEL)과 긍정 및 부정 학습을 통합한 강건한 동적 허지 손실(Robust Dynamic Hinge loss, RDH)을 포함하고 있다. CEL은 노이즈로 인한 불확실성을 포착하고 학습함으로써 크로스모달 검색의 강건성과 신뢰성을 향상시킨다. 구체적으로, 크로스모달 유사성 기반의 양방향 증거를 먼저 모델링하고 디리클레 분포(Dirichlet distribution)로 매개변수화함으로써 정확한 불확실성 추정을 가능하게 하며, 노이즈 있는 대응관계에 대한 외부 방해 요인에 대한 내성을 부여한다. 또한 노이즈의 확산 문제를 해결하기 위해 RDH는 집중하는 네거티브의 어려움을 부드럽게 증가시키는 방식으로, 고노이즈 환경에서도 높은 강건성을 확보한다. 제안된 방법의 효과성과 효율성을 검증하기 위해 Flickr30K, MS-COCO, Conceptual Captions의 세 가지 이미지-텍스트 벤치마크 데이터셋에서 광범위한 실험을 수행하였다. 코드는 urlhttps://github.com/QinYang79/DECL에서 공개되어 있다.

노이지 대응을 활용한 심층 증거 기반 학습을 통한 다중모달 검색 | 최신 연구 논문 | HyperAI초신경