7일 전
다양한 비디오 캡셔닝을 위한 적응형 시공간 주의 메커니즘
Zohreh Ghaderi, Leonard Salewski, Hendrik P. A. Lensch

초록
비디오에 적절한 캡션을 생성하기 위해서 추론 과정은 관련 개념을 식별하고, 그 개념들 사이의 공간적 관계뿐 아니라 클립 내에서의 시적 전개를 고려해야 한다. 본 연구에서 제안하는 엔드투엔드 인코더-디코더 기반의 비디오 캡셔닝 프레임워크는 두 가지 트랜스포머 기반 아키텍처를 통합한다. 하나는 단일한 결합된 시공간 비디오 분석을 위한 개조된 트랜스포머이며, 다른 하나는 고급 텍스트 생성을 위한 자기 주의(Self-Attention) 기반 디코더이다. 더불어, 두 트랜스포머 모델의 훈련 과정에서 필요한 입력 프레임 수를 줄이면서도 관련 콘텐츠를 유지하기 위해 적응형 프레임 선택 기법을 도입하였다. 또한, 각 샘플의 모든 참조 캡션을 집계함으로써 비디오 캡셔닝에 관련된 의미적 개념을 추정하였다. 제안한 방법은 MSVD를 비롯하여 대규모의 MSR-VTT 및 VATEX 벤치마크 데이터셋에서 여러 자연어 생성(NLG) 지표를 고려하여 최신 기술 수준(SOTA)의 성능을 달성하였다. 또한 다양성 점수에 대한 추가 평가를 통해 생성된 캡션의 구조적 표현력과 다양성도 입증되었다.