16일 전

엔드투엔드 디펜스 비디오 캡셔닝을 시퀀스 생성으로서 접근하기

Wanrong Zhu, Bo Pang, Ashish V. Thapliyal, William Yang Wang, Radu Soricut
엔드투엔드 디펜스 비디오 캡셔닝을 시퀀스 생성으로서 접근하기
초록

밀도 높은 비디오 캡셔닝은 입력된 비디오에서 관심 있는 이벤트를 식별하고, 각 이벤트에 대해 기술적인 캡셔닝을 생성하는 것을 목표로 한다. 기존의 접근 방식은 일반적으로 두 단계의 생성 과정을 따르며, 먼저 각 이벤트에 해당하는 구간을 제안한 후, 식별된 각 구간에 대해 캡셔닝을 생성한다. 최근 대규모 시퀀스 생성 사전 훈련 기술의 발전은 다양한 작업들에 대한 작업 정의를 통합하는 데 큰 성공을 거두었지만, 현재까지는 밀도 높은 비디오 캡셔닝과 같은 더 복잡한 작업들은 이러한 강력한 패러다임을 충분히 활용하지 못하고 있다. 본 연구에서는 밀도 높은 비디오 캡셔닝의 두 하위 작업을 하나의 시퀀스 생성 작업으로 통합하여 동시에 이벤트와 해당 설명을 예측할 수 있음을 보여준다. YouCook2 및 ViTT 데이터셋에서의 실험 결과는 유망한 성능을 보이며, 엔드투엔드 방식의 밀도 높은 비디오 캡셔닝과 같은 복잡한 작업을 대규모 사전 훈련 모델에 통합하여 훈련하는 것이 가능함을 시사한다.