17일 전
제로샷 비디오 질의응답을 위한 절차적 프로그램
Rohan Choudhury, Koichiro Niinuma, Kris M. Kitani, László A. Jeni

초록
비디오에 대한 제로샷 질문에 답하기 위해, 시각적 하위 작업들의 시퀀스를 해결함으로써 최종 답변을 도출하는 짧은 절차적 프로그램을 생성하는 방식을 제안합니다. 본 연구에서는 입력 질문과 프롬프트 내 시각 모듈 API를 기반으로 대규모 언어 모델을 사용해 이러한 프로그램을 생성하고, 이를 실행하여 출력을 얻는 절차적 비디오 질의 기법(Procedural Video Querying, ProViQ)을 제시합니다. 최근 유사한 절차적 접근 방식은 이미지 질의 응답에서 성공을 거두었지만, 비디오는 여전히 도전 과제로 남아 있습니다. 본 연구는 비디오 이해를 위한 모듈을 제공함으로써 ProViQ가 다양한 유형의 비디오에 일반화할 수 있도록 하였습니다. 이 코드 생성 프레임워크는 질문 응답 외에도 다객체 추적 또는 기초적인 비디오 편집과 같은 다른 비디오 작업 수행이 가능하게 합니다. ProViQ는 다양한 벤치마크에서 최신 기술 수준의 성능을 달성하였으며, 짧은 질문, 긴 질문, 개방형 질문, 다중 모달 비디오 질의 응답 데이터셋에서 최대 25%까지 성능 향상을 기록하였습니다. 본 연구의 프로젝트 페이지는 https://rccchoudhury.github.io/proviq2023 입니다.