2달 전

Video-RAG: 시각적으로 정렬된 검색 강화된 장편 영상 이해

Yongdong Luo; Xiawu Zheng; Xiao Yang; Guilin Li; Haojia Lin; Jinfa Huang; Jiayi Ji; Fei Chao; Jiebo Luo; Rongrong Ji
Video-RAG: 시각적으로 정렬된 검색 강화된 장편 영상 이해
초록

기존의 대형 비디오-언어 모델(LVLMs)은 제한된 맥락으로 인해 긴 비디오를 올바르게 이해하는 데 어려움을 겪고 있습니다. 이 문제를 해결하기 위해, 장문 맥락 LVLMs의 미세 조정(fine-tuning)과 GPT 기반 에이전트의 활용이 유망한 해결책으로 부각되고 있습니다. 그러나 LVLMs의 미세 조정은 방대한 양의 고품질 데이터와 상당한 GPU 자원이 필요하며, GPT 기반 에이전트는 소유권 모델(예: GPT-4o)에 의존하게 됩니다. 본 논문에서는 훈련 없고 비용 효율적인 파이프라인인 비디오 검색-증강 생성(Video-RAG)을 제안합니다. 이 방법은 시각적으로 일치하는 보조 텍스트를 사용하여 다중 모달 간 정렬을 촉진하고 시각적 콘텐츠 외에 추가 정보를 제공합니다. 구체적으로, 오픈 소스 외부 도구를 활용하여 순수 비디오 데이터(예: 오디오, 광학 문자, 객체 감지)에서 시각적으로 일치하는 정보를 추출하고, 추출된 정보를 비디오 프레임과 쿼리와 함께 기존 LVLM에 플러그 앤 플레이 방식으로 통합합니다. 우리의 Video-RAG는 다음과 같은 주요 장점을 제공합니다: (i) 단일 차례 검색으로 인해 경량화되고 낮은 컴퓨팅 오버헤드; (ii) 어떤 LVLM에도 쉽게 구현할 수 있고 호환성이 뛰어남; (iii) Video-MME, MLVU, LongVideoBench 등 장문 비디오 이해 벤치마크에서 일관되게 성능 향상이 이루어집니다. 특히, 72B 모델을 사용할 때 우리 모델은 Gemini-1.5-Pro와 GPT-4o와 같은 소유권 모델보다 우수한 성능을 보여줍니다.

Video-RAG: 시각적으로 정렬된 검색 강화된 장편 영상 이해 | 최신 연구 논문 | HyperAI초신경