언어에서 시각으로의 장문 맥락 전달

비디오 시퀀스는 귀중한 시간적 정보를 제공하지만, 기존의 대형 다중모달 모델(Large Multimodal Models, LMMs)은 매우 긴 비디오를 이해하는 데 한계가 있습니다. 많은 연구에서는 이 문제를 해결하기 위해 시각 리샘플러(visual resamplers)를 사용하여 시각 토큰의 수를 줄이는 방법을 제안합니다. 본 논문에서는 언어 모델의 관점에서 이 문제에 접근하였습니다. 단순히 언어 백본의 컨텍스트 길이를 확장함으로써, 우리는 추가적인 비디오 학습 없이도 LMMs가 몇 배나 더 많은 시각 토큰을 이해할 수 있게 만들었습니다. 이를 장기 컨텍스트 전송(long context transfer) 현상이라고 명명하고, 그 특성을 철저히 분석하였습니다.시각 모달에서 LMMs의 장기 컨텍스트 일반화 능력을 효과적으로 측정하기 위해, 우리는 언어 모델의 NIAH 테스트에서 영감을 얻어 순수하게 합성된 장기 시각 벤치마크인 V-NIAH (Visual Needle-In-A-Haystack)를 개발하였습니다. 우리가 제안하는 장기 비디오 어시스턴트(Long Video Assistant, LongVA)는 추가적인 복잡성 없이 2000 프레임 또는 20만 개 이상의 시각 토큰을 처리할 수 있습니다. 확장된 컨텍스트 길이 덕분에, LongVA는 7억 규모의 모델들 중에서 Video-MME에서 최고 성능을 달성하였습니다. 입력 프레임을 더욱 밀집하게 샘플링함으로써 이러한 성과를 이룰 수 있었습니다.본 연구는 오픈 소스로 공개되어 있으며, 다음 주소에서 확인하실 수 있습니다: https://github.com/EvolvingLMMs-Lab/LongVA.