17일 전
VideoAgent: LLM을 에이전트로 활용한 장문 영상 이해
Xiaohan Wang, Yuhui Zhang, Orr Zohar, Serena Yeung-Levy

초록
장시간 비디오 이해는 컴퓨터 비전 분야에서 중요한 과제로, 긴 다중 모달 시퀀스에 대한 추론이 가능한 모델을 요구한다. 인간의 장시간 비디오 이해 인지 과정을 모방하여, 우리는 긴 시각 입력을 처리하는 능력보다는 상호작용 기반의 추론과 계획의 중요성을 강조한다. 본 연구에서는 대규모 언어 모델을 중심 에이전트로 활용하여 질문에 답하기 위해 반복적으로 핵심 정보를 식별하고 통합하는 새로운 에이전트 기반 시스템인 VideoAgent를 제안한다. 이 시스템은 시각-언어 기반 모델을 도구로 활용하여 시각 정보를 번역하고 검색한다. EgoSchema 및 NExT-QA와 같은 도전적인 벤치마크에서 평가한 결과, VideoAgent는 평균 8.4 및 8.2 프레임만을 사용하여 각각 54.1%, 71.3%의 제로샷 정확도를 달성하였다. 이러한 결과는 기존 최고 수준의 방법들에 비해 본 연구 방법의 우수한 효과성과 효율성을 입증하며, 에이전트 기반 접근 방식이 장시간 비디오 이해 분야의 발전에 미칠 잠재력을 보여준다.