비디오 내레이션 캡셔닝

비디오 내레이션 캡셔닝은 컴퓨터 비전 분야의 하위 작업으로, 다중 샷 비디오의 각 샷에 대한 내레이션 캡션을 예측하는 것을 목표로 합니다. 이 작업은 단일 샷 비디오 캡셔닝과 동일한 모델 아키텍처를 사용하지만, 자동 음성 인식(ASR) 텍스트를 추가 입력으로 활용합니다. 비디오 내레이션 캡션은 배경 지식을 제공할 뿐 아니라 해설자의 시각을 반영하여, 비디오 내용 이해에 큰 가치를 제공합니다.

Shot2Story20K

Ours