2달 전

이미지와 텍스트를 2-웨이 네트워크로 연결하기

Aviv Eisenschtat; Lior Wolf
이미지와 텍스트를 2-웨이 네트워크로 연결하기
초록

두 데이터 소스를 연결하는 것은 많은 컴퓨터 비전 문제에서 기본적인 구성 요소입니다. 정준 상관 분석(Canonical Correlation Analysis, CCA)은 두 시각 간의 상관 관계를 최대화하기 위해 선형 최적화기를 활용하여 이를 달성합니다. 최근 연구에서는 일부 특징 공간에서 CCA 손실을 최적화하는 비선형 모델, 특히 딥 러닝 기술을 사용하고 있습니다. 본 논문에서는 두 데이터 소스의 벡터 매칭 작업을 위한 새로운 양방향 신경망 구조를 소개합니다. 제안된 접근 방식은 두 개의 연결된 신경망 채널을 사용하여 두 시각을 공통의 최대 상관 공간으로 투영합니다. 이는 유클리드 손실(Euclidean loss)을 통해 이루어집니다. 우리는 상관 기반 손실과 유클리드 손실 사이에 직접적인 연관성을 보여주며, 이로 인해 상관 관계 최대화를 위해 유클리드 손실을 사용할 수 있게 되었습니다. 일반적인 유클리드 회귀 최적화 문제를 극복하기 위해, 배치 정규화(batch normalization)와 드롭아웃(dropout) 등의 잘 알려진 기법들을 우리의 문제에 맞게 수정하였습니다. 우리는 MNIST 이미지 매칭 및 Flickr8k, Flickr30k, COCO 데이터셋에서 문장-이미지 매칭 등 여러 컴퓨터 비전 매칭 작업에서 최고 수준의 결과를 보여주었습니다.

이미지와 텍스트를 2-웨이 네트워크로 연결하기 | 최신 연구 논문 | HyperAI초신경