2달 전

자연어를 활용한 영화 이해를 위한 언어-시각적 임베딩 학습

Atousa Torabi; Niket Tandon; Leonid Sigal
자연어를 활용한 영화 이해를 위한 언어-시각적 임베딩 학습
초록

언어-시각적 임베딩을 학습하는 것은 여러 가지 매력적인 특성을 가지고 있으며, 자연어 이미지/비디오 주석 및 검색 등 다양한 실용적인 응용 분야를 가져올 수 있습니다. 본 연구에서는 세 가지 다른 언어-시각적 신경망 모델 아키텍처를 조사합니다. 우리는 두 가지 작업에 대해 LSMDC16 영화 데이터셋에서 모델들을 평가하였습니다: 1) 비디오 주석 및 검색을 위한 표준 순위 평가 2) 우리가 제안한 영화 다중 선택 테스트. 이 테스트는 인간 활동에 기반한 자연어 비디오 주석을 위한 시각-언어 모델의 자동 평가를 촉진합니다. LSMDC16의 일부로 제공된 원래 오디오 설명(AD) 캡션 외에도, 우리는 a) 아마존 MTurk를 사용하여 수작업으로 생성된 해당 캡션의 재구성 문구 b) "Knowlywood"라는 활동 지식 채굴 모델을 기반으로 자동 생성된 "주격 + 목적격"(PO) 구문 형태의 인간 활동 요소를 수집하였으며, 이를 공개할 예정입니다. 우리의 최고 성능 모델은 1000개 샘플 부분 집합에서 주석 작업에서 Recall@10 19.2%, 비디오 검색 작업에서 18.9%의 성능을 보였습니다. 다중 선택 테스트에서는 전체 LSMDC16 공개 테스트셋에 대해 58.11%의 정확도를 달성하였습니다.

자연어를 활용한 영화 이해를 위한 언어-시각적 임베딩 학습 | 최신 연구 논문 | HyperAI초신경