7일 전
다중모달 사전학습을 통한 밀도 높은 비디오 캡션 생성
Gabriel Huang, Bo Pang, Zhenhai Zhu, Clara Rivera, Radu Soricut

초록
요리, 자동차 정비, 가정 수리와 같은 구체적인 실습 기술을 익히는 일이 점점 더 교육용 영상들을 통해 이루어지고 있다. 이러한 영상의 사용자 경험은 주요 단계에 대한 타임스탬프가 붙은 메타정보를 통해 향상된다는 것이 잘 알려져 있다. 이러한 메타정보를 자동으로 생성하는 것은 도전 과제이며, 본 연구에서는 이를 위한 두 가지 주요 기여를 제시한다. 첫째, 다양한 교육용 영상과 함께 타임스탬프가 부여된 애노테이션을 포함한 새로운 밀도 높은 영상 설명 데이터셋인 Video Timeline Tags(ViTT)를 구축하고 공개한다. 둘째, 영상과 문장형 텍스트 형태의 대규모 비지도 데이터셋을 활용하는 다중모달 시퀀스-투-시퀀스 사전학습 전략들을 탐구한다. 본 연구에서는 YouCook2와 ViTT 데이터셋을 사용하여 밀도 높은 영상 설명 모델을 사전학습한 후 미세조정(fine-tuning)을 수행한다. 결과적으로 이러한 모델이 다양한 교육용 영상에 대해 잘 일반화되며 높은 강건성(robustness)을 보임을 보여준다.