자체 연결된 이미지-언어 모델을 이용한 비디오 위치 추정 및 질문 응답

최근 연구에서는 대형 사전 훈련 이미지-언어 모델을 동영상 질문 응답에 활용한 결과가 유망함을 보여주었습니다. 이러한 이미지-언어 모델은 동영상-언어 모델의 표현 학습을 효율적으로 부트스트랩할 수 있지만, 일반적으로 언어 인식이 명시적으로 반영되지 않은 일정한 간격으로 샘플링된 동영상 프레임들을 시각 입력으로 연결합니다. 동영상 입력의 일부만 언어 쿼리와 관련되어 있을 때, 이러한 일정한 프레임 샘플링은 중요한 시각적 신호를 놓칠 가능성이 종종 있습니다. 인간은 종종 질문에 답하기 위해 동영상의 특정 순간에 집중하고 그 순간을 되돌리는 경향이 있지만, 쿼리 인식 동영상 순간 위치 추정기(query-aware video moment localizer)를 훈련시키는 것은 비싼 주석과 높은 계산 비용이 필요합니다. 이 문제를 해결하기 위해, 우리는 단일 이미지-언어 모델(BLIP-2)을 활용하여 시간적 키프레임 위치 추정과 동영상 QA를 모두 처리하는 새로운 프레임워크인 Self-Chained Video Localization-Answering (SeViLA)를 제안합니다. SeViLA 프레임워크는 Localizer와 Answerer 두 가지 모듈로 구성되며, 이들 모두 BLIP-2에서 매개변수 효율적으로 미세 조정(fine-tuning)됩니다. 우리는 이 두 모듈을 연쇄적으로 연결하여 순차 추론(cascaded inference)과 자기 개선(self-refinement)을 수행하는 두 가지 방법을 제안합니다. 첫째, 순방향 체인(forward chain)에서는 Localizer가 동영상에서 여러 개의 언어 인식 키프레임(keyframes)을 찾고, Answerer는 이를 사용하여 답변을 예측합니다. 둘째, 역방향 체인(reverse chain)에서는 Answerer가 키프레임 가짜 라벨(pseudo-labels)을 생성하여 Localizer를 개선하며, 비싼 동영상 순간 위치 추정 주석(annotation)의 필요성을 완화합니다. 우리의 SeViLA 프레임워크는 5개의 도전적인 동영상 QA 및 이벤트 예측 벤치마크에서 여러 강력한 기준모델(baselines)보다 우수한 성능을 보였으며, 미세 조정(fine-tuning; NExT-QA, STAR) 및 제로샷(zero-shot; NExT-QA, STAR, How2QA, VLEP) 설정 모두에서 최신 기술(state-of-the-art) 수준의 성능을 달성했습니다. 또한 우리는 Localizer의 영향, 다른 시간적 위치 추정 모델들과의 비교, Localizer의 사전 학습/자기 개선(pre-training/self-refinement), 그리고 키프레임 수 변화에 대한 분석도 수행했습니다.