Dual-Path Convolutional Image-Text Embeddings with Instance Loss 이중 경로 합성곱 이미지-텍스트 임베딩과 인스턴스 손실

이미지와 문장의 일치를 위해서는 두 모달리티에 대한 세밀한 이해가 필요합니다. 본 논문에서는 이미지와 텍스트를 공유된 시각-텍스트 공간으로 차별적으로 임베딩하는 새로운 시스템을 제안합니다. 이 분야에서 대부분의 기존 연구는 순위 손실(ranking loss)을 사용하여 긍정적인 이미지/텍스트 쌍을 가깝게 만들고 부정적인 쌍을 서로 멀리 떨어뜨리는 데 중점을 두었습니다. 그러나, 순위 손실을 직접 적용하는 것은 네트워크 학습에 어려움이 있습니다. 이는 두 개의 이질적인 특성을 기반으로 모달 간 관계를 구축하기 때문입니다. 이러한 문제를 해결하기 위해, 우리는 모달 내 데이터 분포를 명시적으로 고려하는 인스턴스 손실(instance loss)을 제안합니다. 이 손실은 각 이미지/텍스트 그룹이 클래스로 취급될 수 있다는 비지도 학습 가정에 기반합니다. 따라서 네트워크는 각 이미지/텍스트 그룹에서 세밀한 특징을 학습할 수 있습니다. 실험 결과, 인스턴스 손실이 순위 손실에 대해 더 나은 가중치 초기화를 제공함으로써 더 차별화된 임베딩을 학습할 수 있음을 보여주었습니다.또한, 기존 연구들은 주로 사전 학습된 특성(word2vec 및 고정된 시각적 특성)을 사용하였습니다. 이를 보완하기 위해, 본 논문에서는 이미지와 텍스트 표현을 학습하기 위한 엔드투엔드(end-to-end) 듀얼 패스 컨볼루션 네트워크를 구성하였습니다. 엔드투엔드 학습은 시스템이 데이터로부터 직접 학습하고 감독 정보를 충분히 활용할 수 있게 합니다. 일반 검색 데이터셋(Flickr30k 및 MSCOCO)에서 수행된 실험 결과, 우리의 방법론은 최신 방법들과 비교해 경쟁력 있는 정확도를 보임을 확인할 수 있었습니다. 또한, 언어 기반 개인 검색에서 우리는 큰 폭으로 최신 성능을 개선했습니다. 해당 코드는 공개되었습니다.