16일 전

엔드투엔드 디펜스 비디오 캡셔닝을 시퀀스 생성으로서 접근하기

Wanrong Zhu, Bo Pang, Ashish V. Thapliyal, William Yang Wang, Radu Soricut

초록

밀도 높은 비디오 캡셔닝은 입력된 비디오에서 관심 있는 이벤트를 식별하고, 각 이벤트에 대해 기술적인 캡셔닝을 생성하는 것을 목표로 한다. 기존의 접근 방식은 일반적으로 두 단계의 생성 과정을 따르며, 먼저 각 이벤트에 해당하는 구간을 제안한 후, 식별된 각 구간에 대해 캡셔닝을 생성한다. 최근 대규모 시퀀스 생성 사전 훈련 기술의 발전은 다양한 작업들에 대한 작업 정의를 통합하는 데 큰 성공을 거두었지만, 현재까지는 밀도 높은 비디오 캡셔닝과 같은 더 복잡한 작업들은 이러한 강력한 패러다임을 충분히 활용하지 못하고 있다. 본 연구에서는 밀도 높은 비디오 캡셔닝의 두 하위 작업을 하나의 시퀀스 생성 작업으로 통합하여 동시에 이벤트와 해당 설명을 예측할 수 있음을 보여준다. YouCook2 및 ViTT 데이터셋에서의 실험 결과는 유망한 성능을 보이며, 엔드투엔드 방식의 밀도 높은 비디오 캡셔닝과 같은 복잡한 작업을 대규모 사전 훈련 모델에 통합하여 훈련하는 것이 가능함을 시사한다.