17일 전

MoReVQA: 비디오 질의 응답을 위한 모듈러리 reasoning 모델 탐색

Juhong Min, Shyamal Buch, Arsha Nagrani, Minsu Cho, Cordelia Schmid
MoReVQA: 비디오 질의 응답을 위한 모듈러리 reasoning 모델 탐색
초록

이 논문은 분해된 다단계 모듈형 추론 프레임워크를 통해 영상 질의응답(VideoQA) 문제를 다룬다. 기존의 모듈형 접근법은 시각적 콘텐츠에 기반하지 않은 단일 계획 단계를 사용하여 전망을 보였으나, 간단하면서도 효과적인 베이스라인을 통해 이러한 시스템이 도전적인 영상QA 환경에서 실제로는 취약한 행동을 보일 수 있음을 발견하였다. 따라서 기존의 단일 단계 계획 방식과 달리, 이는 이벤트 파서, 지각 단계, 그리고 외부 메모리와 결합된 최종 추론 단계로 구성된 다단계 시스템을 제안한다. 모든 단계는 학습이 필요 없으며, 대규모 모델의 소수 샘플 프롬프팅을 통해 수행되며, 각 단계에서 해석 가능한 중간 출력을 생성한다. 기저 계획 및 작업 복잡도를 분해함으로써, 제안하는 MoReVQA 방법은 기존의 표준 영상QA 벤치마크(NExT-QA, iVQA, EgoSchema, ActivityNet-QA)에서 최첨단 성능을 달성하였으며, 관련 작업(지각 기반 영상QA, 단락 캡셔닝)으로의 확장도 가능하다.

MoReVQA: 비디오 질의 응답을 위한 모듈러리 reasoning 모델 탐색 | 최신 연구 논문 | HyperAI초신경