TraveLER: 비디오 질문-응답을 위한 모듈형 다중 LMM 에이전트 프레임워크

최근 이미지 기반 대규모 다중모달 모델(LMMs)은 프레임 단위 접근 방식을 활용하여, 제로샷(zero-shot) 방식으로 대규모 사전 훈련을 통해 비디오 질의응답(VideoQA) 분야에서 큰 진전을 이루었다. 그러나 이러한 모델은 관련 정보를 탐색하고 추출하며 질문에 답변하는 과정을 동시에 수행할 수 있어야 한다. 현재까지 제안된 방법들은 모든 단계를 단일 패스(one-pass)로 수행하며, 수집된 정보가 부족하거나 오류가 있을 경우 이를 적응적으로 조정할 수 없다는 한계가 있다. 이를 극복하기 위해, 서로 다른 역할을 수행하는 여러 에이전트를 포함하는 모듈형 다중LMM 에이전트 프레임워크를 제안한다. 이 프레임워크는 다른 에이전트들로부터 공유되는 피드백을 바탕으로 지속적으로 지시를 업데이트하는 '플래너(Planner)' 에이전트에 의해 제어된다. 구체적으로, 본 연구는 'TraveLER'라는 방법을 제안하며, 이는 비디오를 '탐색'(Traverse)하기 위한 계획을 수립하고, 개별 프레임에 대해 질문하여 '확인'(Locate)하고 핵심 정보를 저장한 후, 질문에 답변할 충분한 정보가 있는지를 '평가'(Evaluate)하는 과정을 수행할 수 있다. 만약 충분한 정보가 수집되지 않았을 경우, 본 방법은 수집된 지식을 기반으로 '재계획'(Replan)할 수 있다. 광범위한 실험을 통해 제안된 TraveLER 방법이 특정 데이터셋에 대한 미세조정(fine-tuning) 없이도 여러 VideoQA 벤치마크에서 성능 향상을 보였음을 확인하였다. 본 연구의 코드는 https://github.com/traveler-framework/TraveLER 에서 공개되어 있다.