11일 전

다중 모달 밀도형 비디오 캡셔닝

Vladimir Iashin, Esa Rahtu
다중 모달 밀도형 비디오 캡셔닝
초록

밀도 높은 비디오 캡셔닝(dense video captioning)은 잘라내지 않은 비디오에서 흥미로운 이벤트를 탐지하고, 각 탐지된 이벤트에 대해 텍스트 설명(캡셔닝)을 생성하는 작업이다. 기존 밀도 높은 비디오 캡셔닝 연구 대부분은 시각 정보에만 의존하며, 오디오 트랙을 완전히 무시하고 있다. 그러나 인간 관찰자에게 있어 오디오는 특히 음성 정보가 환경을 이해하는 데 핵심적인 단서가 된다. 본 논문에서는 이벤트 설명에 다양한 모달리티를 활용할 수 있는 새로운 밀도 높은 비디오 캡셔닝 접근법을 제안한다. 구체적으로, 오디오 및 음성 모달리티가 밀도 높은 비디오 캡셔닝 모델의 성능을 어떻게 향상시킬 수 있는지 보여준다. 우리는 자동 음성 인식(ASR, Automatic Speech Recognition) 시스템을 활용하여 음성의 시간적으로 정렬된 텍스트 설명(자막과 유사)을 추출하고, 이를 비디오 프레임과 해당 오디오 트랙과 별개의 입력으로 처리한다. 캡셔닝 작업을 기계 번역 문제로 공식화하고, 최근 제안된 Transformer 아키텍처를 사용하여 다중 모달 입력 데이터를 텍스트 설명으로 변환한다. 제안한 모델의 성능을 ActivityNet Captions 데이터셋에서 검증하였으며, 제거 실험(ablation studies) 결과 오디오 및 음성 모달리티가 비디오 프레임과 상당한 보완적인 정보를 제공함을 시사한다. 더불어, 원본 YouTube 비디오에서 추출한 카테고리 태그를 활용하여 ActivityNet Captions 결과에 대한 심층 분석을 수행하였다. 코드는 공개되어 있으며, GitHub에서 확인 가능: github.com/v-iashin/MDVC

다중 모달 밀도형 비디오 캡셔닝 | 최신 연구 논문 | HyperAI초신경