7일 전

다양한 비디오 캡셔닝을 위한 적응형 시공간 주의 메커니즘

Zohreh Ghaderi, Leonard Salewski, Hendrik P. A. Lensch
다양한 비디오 캡셔닝을 위한 적응형 시공간 주의 메커니즘
초록

비디오에 적절한 캡션을 생성하기 위해서 추론 과정은 관련 개념을 식별하고, 그 개념들 사이의 공간적 관계뿐 아니라 클립 내에서의 시적 전개를 고려해야 한다. 본 연구에서 제안하는 엔드투엔드 인코더-디코더 기반의 비디오 캡셔닝 프레임워크는 두 가지 트랜스포머 기반 아키텍처를 통합한다. 하나는 단일한 결합된 시공간 비디오 분석을 위한 개조된 트랜스포머이며, 다른 하나는 고급 텍스트 생성을 위한 자기 주의(Self-Attention) 기반 디코더이다. 더불어, 두 트랜스포머 모델의 훈련 과정에서 필요한 입력 프레임 수를 줄이면서도 관련 콘텐츠를 유지하기 위해 적응형 프레임 선택 기법을 도입하였다. 또한, 각 샘플의 모든 참조 캡션을 집계함으로써 비디오 캡셔닝에 관련된 의미적 개념을 추정하였다. 제안한 방법은 MSVD를 비롯하여 대규모의 MSR-VTT 및 VATEX 벤치마크 데이터셋에서 여러 자연어 생성(NLG) 지표를 고려하여 최신 기술 수준(SOTA)의 성능을 달성하였다. 또한 다양성 점수에 대한 추가 평가를 통해 생성된 캡션의 구조적 표현력과 다양성도 입증되었다.