비디오 리캡: 1시간 길이의 비디오에 대한 재귀적 캡션 생성

대부분의 영상 캡셔닝 모델은 몇 초 분량의 짧은 영상 클립을 처리하고, 객체, 장면, 원자적 동작과 같은 저수준 시각적 개념을 설명하는 텍스트를 출력하도록 설계되어 있다. 그러나 현실 세계의 대부분 영상은 분 단위 또는 시간 단위로 지속되며, 다양한 시간적 세분화 수준을 아우르는 복잡한 계층적 구조를 가진다. 본 연구에서는 길이가 1초에서 2시간에 이르는 다양한 길이의 영상 입력을 처리할 수 있고, 여러 계층 수준에서 영상 캡셔닝을 생성할 수 있는 재귀적 영상 캡셔닝 모델인 Video ReCap을 제안한다. 재귀적 영상-언어 아키텍처는 서로 다른 영상 계층 간의 상호보완적 관계를 효과적으로 활용하여, 수시간에 이르는 장시간 영상도 효율적으로 처리할 수 있다. 우리는 영상의 계층적 구조를 학습하기 위해 교과과정 기반 학습(curriculum learning) 방식을 도입하였으며, 먼저 원자적 동작을 설명하는 클립 수준의 캡셔닝을 시작으로, 세그먼트 수준의 설명에 초점을 맞추고, 마지막으로 수시간 길이의 영상에 대한 요약을 생성하는 단계로 진행한다. 또한, Ego4D 데이터셋에 8,267개의 수동으로 수집된 장기적 영상 요약을 보완하여 Ego4D-HCap 데이터셋을 제안한다. 본 재귀적 모델은 다양한 계층 수준에서 유연하게 캡셔닝을 생성할 뿐만 아니라, EgoSchema 기반 영상 질의응답(VideoQA)과 같은 다른 복잡한 영상 이해 작업에도 유용하게 활용될 수 있다. 데이터, 코드 및 모델은 다음 링크에서 제공된다: https://sites.google.com/view/vidrecap