
초록
본 논문은 이미지와 텍스트의 공동 임베딩을 학습하기 위한 방법을 제안합니다. 이 방법은 여러 개의 선형 투영 계층과 그 뒤에 비선형 함수를 사용하는 두 가지 분기 신경망(two-branch neural network)을 기반으로 합니다. 네트워크는 메트릭 학습 문헌에서 영감을 받은 크로스 뷰 순위 제약(cross-view ranking constraints)과 뷰 내 이웃 구조 보존 제약(within-view neighborhood structure preservation constraints)을 결합한 큰 마진 목적함수(large margin objective)를 사용하여 훈련됩니다. 광범위한 실험 결과, 본 접근법이 이미지-텍스트 및 텍스트-이미지 검색 정확도에서 상당한 개선을 이루었음을 보여줍니다. 본 방법은 Flickr30K 및 MSCOCO 이미지-문장 데이터셋에서 새로운 최고 수준의 성능(new state-of-the-art results)을 달성하였으며, Flickr30K 엔티티즈 데이터셋에서 문구 위치화(phrase localization)라는 새로운 작업에서도 가능성을 보여주었습니다.