비전-언어 사전 학습에 대한 삼중 대조 학습

비전-언어 표현 학습은 대조 손실(예: InfoNCE 손실)을 통한 이미지-텍스트 정렬에서 크게 이점을 얻습니다. 이 정렬 전략의 성공은 이미지와 일치하는 텍스트 간의 상호 정보(MI)를 최대화하는 능력에 기인합니다. 그러나 단순히 교차 모달 정렬(CMA)만 수행하면 각 모달 내부의 데이터 잠재력을 무시하게 되어, 이는 표현이 저하될 수 있습니다. 예를 들어, CMA 기반 모델은 임베딩 공간에서 이미지-텍스트 쌍을 가깝게 매핑할 수 있지만, 동일한 모달 내 유사한 입력들이 서로 가까워지는 것을 보장하지 못합니다. 사전 학습 데이터가 노이즈가 많은 경우에는 이 문제가 더욱 악화될 수 있습니다. 본 논문에서는 비전-언어 사전 학습을 위해 교차 모달 및 동일 모달 자기 감독을 활용한 삼중 대조 학습(TCL)을 제안합니다. CMA 외에도 TCL은 동일 모달 대조 목적함수를 도입하여 표현 학습에서 보완적인 이점을 제공합니다. 이미지와 텍스트 입력으로부터 국소적이고 구조적인 정보를 활용하기 위해, TCL은 이미지/텍스트의 국소 영역과 그 전역 요약 사이의 평균 MI를 최대화합니다. 우리所知,这是我们首次考虑局部结构信息进行多模态表示学习的工作。 (注:最后一句中出现了中文,可能是原文中的错误。根据上下文,我将其翻译为韩文如下:)우리가 알고 있는 바로는, 본 연구는 다중 모달 표현 학습을 위해 국소 구조 정보를 고려한 첫 번째 작업입니다. 실험 평가는 우리의 접근 방식이 경쟁력 있으며, 다양한 일반적인 하류 비전-언어 작업(예: 이미지-텍스트 검색 및 시각적 질문 응답)에서 새로운 최고 수준의 성능을 달성함을 보여줍니다.