2달 전

다의적 시각-의미 임베딩을 이용한 교차 모달 검색

Yale Song; Mohammad Soleymani
다의적 시각-의미 임베딩을 이용한 교차 모달 검색
초록

시각-의미 임베딩은 관련된 시각적 및 텍스트 인스턴스가 서로 가까워지는 공유 잠재 공간을 찾는 것을 목표로 합니다. 현재 대부분의 방법들은 인스턴스를 공유 공간의 단일 점으로 매핑하는 주입형 임베딩 함수를 학습합니다. 그러나 주입형 임베딩은 여러 가지 가능한 의미를 가진 다의어 인스턴스를 효과적으로 처리할 수 없습니다. 최선의 경우에도, 이는 다른 의미들의 평균 표현을 찾을 것입니다. 이는 개별 인스턴스와 그 크로스모달 연관성이 종종 모호한 실제 시나리오에서 사용을 방해합니다. 본 연구에서는 전역 컨텍스트와 로컬 가이드 특성을 멀티헤드 자기주의(Multi-head Self-Attention)와 잔차 학습(Residual Learning)을 통해 결합하여 하나의 인스턴스에 대해 여러 가지 다양하고 독특한 표현을 계산하는 다의어 인스턴스 임베딩 네트워크(Polysemous Instance Embedding Networks, PIE-Nets)를 소개합니다. 시각-의미 임베딩을 학습하기 위해 두 개의 PIE-Nets를 연결하여 다중 인스턴스 학습 프레임워크에서 공동으로 최적화합니다. 기존 크로스모달 검색 연구 대부분은 이미지-텍스트 데이터에 초점을 맞추고 있습니다. 여기서 우리는 비디오-텍스트 검색이라는 더 어려운 사례도 다룹니다. 비디오-텍스트 검색 분야에서 추가적인 연구를 지원하기 위해, 소셜 미디어에서 수집한 50,000개의 비디오-문장 쌍으로 구성된 새로운 데이터셋인 MRW(my reaction when)를 공개합니다. 우리는 MS-COCO, TGIF, 그리고 우리 새 MRW 데이터셋을 사용하여 이미지-텍스트 및 비디오-텍스트 검색 시나리오에서 우리의 접근법을 입증하였습니다.

다의적 시각-의미 임베딩을 이용한 교차 모달 검색 | 최신 연구 논문 | HyperAI초신경