2달 전

시각적 키워드 스포팅에 주의를 이용한 방법

K R Prajwal; Liliane Momeni; Triantafyllos Afouras; Andrew Zisserman
시각적 키워드 스포팅에 주의를 이용한 방법
초록

본 논문에서는 음성이 없는 비디오 시퀀스에서 구어로 발화된 키워드를 인식하는 작업, 즉 시각적 키워드 인식을 다룹니다. 이를 위해 비디오의 시각적 인코딩과 키워드의 음성학적 인코딩 두 개의 스트림을 입력으로 받아 키워드가 존재할 경우 그 시간 위치를 출력하는 Transformer 기반 모델을 연구합니다. 본 논문의 주요 기여는 다음과 같습니다: (1) 비디오와 음성학적 스트림 간에 완전한 다중 모달 어텐션(full cross-modal attention)을 사용하는 새로운 아키텍처인 Transpotter를 제안합니다; (2) 광범위한 평가를 통해 본 모델이 LRW, LRS2, LRS3 데이터셋에서 이전 최신 시각적 키워드 인식 및 입술 읽기 방법보다 크게 우수함을 보입니다; (3) 본 모델이 수화 영상에서 고립된 발음(isolated mouthings)이라는 극단적인 조건에서도 단어를 인식할 수 있는 능력을 입증합니다.

시각적 키워드 스포팅에 주의를 이용한 방법 | 최신 연구 논문 | HyperAI초신경