7일 전
SEM-POS: 문법적 및 의미적으로 올바른 비디오 캡션 생성
Asmar Nadeem, Adrian Hilton, Robert Dawes, Graham Thomas, Armin Mustafa

초록
비디오 캡션 생성에서 문법적 및 의미적으로 올바른 캡션을 생성하는 것은 도전적인 과제이다. 기존 방법으로 생성된 캡션은 문법 구조와 일치하지 않는 단어별 생성 방식이거나, 입력 비디오에서 핵심 정보를 놓치는 경우가 많다. 이러한 문제를 해결하기 위해, 시각적 공간 특징과 다양한 품사(POS) 구성 요소의 특징을 인코딩하고 융합하는 글로벌-로컬 융합 블록(Global-Local Fusion Block, GLFB)을 포함한 새로운 글로벌-로컬 융합 네트워크를 제안한다. 본 연구에서는 각 POS 블록(결정사 + 주어, 보조동사, 동사, 결정사 + 목적어)에 대해 새로운 조합의 POS 구성 요소를 사용하여 감독 학습을 수행한다. 제안하는 새로운 글로벌-로컬 융합 네트워크와 POS 블록의 결합은 시각적 특징과 언어적 설명 간의 정렬을 향상시켜 문법적·의미적으로 정확한 캡션 생성을 가능하게 한다. 기준 데이터셋인 MSVD 및 MSRVTT에서 실시한 광범위한 정성적 및 정량적 실험 결과, 기존 방법 대비 더 문법적·의미적으로 정확한 캡션을 생성함을 입증하며, 새로운 최고 성능(SOTA)을 달성하였다. POS 블록 및 GLFB에 대한 아블레이션 연구를 통해 제안된 방법의 각 구성 요소가 성능에 미치는 영향을 확인하였다.