2달 전

다중 모드 합성곱 신경망을 이용한 이미지와 문장의 일치 시키기

Lin Ma; Zhengdong Lu; Lifeng Shang; Hang Li

초록

본 논문에서는 이미지와 문장의 매칭을 위해 다중모달 컨벌루션 신경망(m-CNNs)을 제안합니다. 제안된 m-CNN은 이미지 표현, 단어 구성, 그리고 두 모달 간의 매칭 관계를 활용하기 위한 컨벌루션 구조를 포함한 엔드투엔드 프레임워크를 제공합니다. 보다 구체적으로, 이 모델은 이미지 내용을 인코딩하는 하나의 이미지 CNN과 이미지와 문장의 결합 표현을 학습하는 하나의 매칭 CNN으로 구성됩니다. 매칭 CNN은 단어들을 다양한 의미 조각으로 구성하고, 이미지와 구성된 조각 간의 여러 수준에서 상호 모달 관계를 학습함으로써, 이미지와 문장 간의 매칭 관계를 완전히 활용합니다. 양방향 이미지 및 문장 검색 벤치마크 데이터베이스에서 수행된 실험 결과는 제안된 m-CNNs가 이미지와 문장 매칭에 필요한 정보를 효과적으로 포착할 수 있음을 보여줍니다. 특히, Flickr30K 및 Microsoft COCO 데이터베이스에서 양방향 이미지 및 문장 검색을 위한 제안된 m-CNNs는 최고 수준의 성능을 달성하였습니다.