2달 전
InternVideo2.5: 긴 문맥과 풍부한 컨텍스트 모델링을 통한 비디오 MLLM 강화
Yi Wang; Xinhao Li; Ziang Yan; Yinan He; Jiashuo Yu; Xiangyu Zeng; Chenting Wang; Changlian Ma; Haian Huang; Jianfei Gao; Min Dou; Kai Chen; Wenhai Wang; Yu Qiao; Yali Wang; Limin Wang

초록
본 논문은 비디오 다중모달 대형 언어 모델(MLLM)의 성능을 개선하기 위해 장기적이고 풍부한 맥락(LRC) 모델링에 중점을 두고 있습니다. 이를 통해 원래 MLLM의 세부 사항 인식 능력과 비디오에서의 장기적인 시간 구조를 포착하는 능력을 강화한 새로운 버전의 InternVideo2.5를 개발하였습니다. 구체적으로, 본 연구는 직접 선호도 최적화를 사용하여 MLLM에 밀집된 시각 작업 주석을 통합하고, 적응형 계층적 토큰 압축을 통해 효율적인 시공간 표현을 개발하였습니다. 실험 결과, 이 독특한 LRC 설계가 주요 비디오 이해 벤치마크(단기 및 장기)에서 비디오 MLLM의 성능을 크게 향상시키며, MLLM이 현저히 긴 비디오 입력(원래보다 최소 6배 이상 길음)을 기억하고 객체 추적 및 분할과 같은 전문적인 시각 기능을 숙달할 수 있음을 보여주었습니다. 본 연구는 다중모달 맥락의 풍부성(길이와 세밀함)이 MLLM의 고유 능력(집중력과 기억력)을 강화하는 데 중요한 역할을 함을 강조하며, 비디오 MLLM에 대한 미래 연구에 새로운 통찰력을 제공합니다. 코드와 모델은 https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2.5 에서 확인할 수 있습니다.