8일 전
VLTinT: 일관성 있는 비디오 단락 캡셔닝을 위한 시각-언어형 트랜스포머-인-트랜스포머
Kashu Yamazaki, Khoa Vo, Sang Truong, Bhiksha Raj, Ngan Le

초록
비디오 단락 캡셔닝은 시간적 이벤트가 여러 개 포함된 트림되지 않은 비디오에 대해 일관된 서사 구조를 갖는 다중 문장 설명을 생성하는 것을 목표로 한다. 인간의 인지 과정을 따르며, 시각(예: 인간, 동물)과 비시각적 요소(예: 행동, 관계) 간의 상호작용 속에서 장면을 효과적으로 이해하는 방식에 착안하여, 본 연구에서는 시각-언어(VL) 특징을 최초로 제안한다. 제안된 VL 특징은 세 가지 모달리티를 포함하여 장면을 모델링한다: (i) 전반적인 시각 환경, (ii) 국소적인 시각적 주요 에이전트, (iii) 언어적 장면 요소. 이후, 비디오 내 이벤트 간 및 이벤트 내의 의미적 일관성을 동시에 포착할 수 있도록 자동 회귀형 Transformer-in-Transformer(TinT) 아키텍처를 도입한다. 마지막으로, 학습된 임베딩 특징이 캡션의 의미와 일치하도록 보장하기 위해 새로운 VL 대조 손실 함수를 제안한다. ActivityNet Captions 및 YouCookII 데이터셋에서 실시한 종합적인 실험과 광범위한 아블레이션 연구 결과, 제안한 Visual-Linguistic Transformer-in-Transformer(VLTinT)가 기존 최고 성능 모델들보다 정확도와 다양성 측면에서 우수한 성능을 보였다. 소스 코드는 공개되어 있으며, 다음 링크에서 확인할 수 있다: https://github.com/UARK-AICV/VLTinT.