2달 전

VideoTree: 긴 비디오에 대한 LLM 추론을 위한 적응형 트리 기반 비디오 표현

Ziyang Wang; Shoubin Yu; Elias Stengel-Eskin; Jaehong Yoon; Feng Cheng; Gedas Bertasius; Mohit Bansal
VideoTree: 긴 비디오에 대한 LLM 추론을 위한 적응형 트리 기반 비디오 표현
초록

장기 비디오 이해는 비디오 데이터의 높은 중복성과 쿼리와 관련 없는 정보의 과다함으로 인해 복잡해집니다. 이러한 도전 과제를 해결하기 위해, 우리는 VideoTree라는 학습이 필요하지 않은 프레임워크를 제안합니다. 이 프레임워크는 LLM(대형 언어 모델)이 장기 비디오에서 추론을 수행할 수 있도록 쿼리에 적응하고 계층적인 비디오 표현을 구축합니다. 첫째, VideoTree는 반복적인 과정을 통해 입력 비디오에서 쿼리와 관련된 정보를 추출하며, 키프레임 선택을 점진적으로 개선하여 쿼리와의 관련성을 기반으로 합니다. 둘째, VideoTree는 기존의 LLM 기반 방법들이 종종 간과하는 장기 비디오 데이터의 고유한 계층적 구조를 활용합니다. 특히, 우리는 나무 기반 표현에 다중 세분화 정보를 통합하여, VideoTree가 거시적에서 미시적 방식으로 장기 비디오에서 쿼리와 관련된 세부 사항을 추출할 수 있게 합니다. 이로써 모델은 다양한 상세 수준의 광범위한 비디오 쿼리를 효과적으로 처리할 수 있습니다. 마지막으로, VideoTree는 나무 구조 내에서 계층적으로 추출된 쿼리와 관련된 정보를 집계하여 이를 LLM 추론 모델에 입력하여 쿼리를 응답합니다.실험 결과, 우리의 방법은 추론 정확도와 효율성을 모두 개선했습니다. 특히, VideoTree는 EgoSchema와 NExT-QA에서 기존의 학습이 필요하지 않은 접근법보다 더 짧은 추론 시간으로 더 우수한 성능을 보였으며, 테스트 세트에서 추가적인 비디오 특화 학습 없이 61.1%와 75.6%의 정확도를 달성했습니다. 또한, 평균 44분 길이인 Video-MME의 장기 분할에서도 VideoTree는 GPT-4V 및 많은 양의 비디오 데이터로 철저히 학습된 다른 여러 MLLM(다중 모달 대형 언어 모델)들보다 더 좋은 성능을 보였습니다.

VideoTree: 긴 비디오에 대한 LLM 추론을 위한 적응형 트리 기반 비디오 표현 | 최신 연구 논문 | HyperAI초신경