2달 전

언어에서 시각으로의 장문 맥락 전달

Peiyuan Zhang, Kaichen Zhang, Bo Li, Guangtao Zeng, Jingkang Yang, Yuanhan Zhang, Ziyue Wang, Haoran Tan, Chunyuan Li, Ziwei Liu
언어에서 시각으로의 장문 맥락 전달
초록

비디오 시퀀스는 귀중한 시간적 정보를 제공하지만, 기존의 대형 다중모달 모델(Large Multimodal Models, LMMs)은 매우 긴 비디오를 이해하는 데 한계가 있습니다. 많은 연구에서는 이 문제를 해결하기 위해 시각 리샘플러(visual resamplers)를 사용하여 시각 토큰의 수를 줄이는 방법을 제안합니다. 본 논문에서는 언어 모델의 관점에서 이 문제에 접근하였습니다. 단순히 언어 백본의 컨텍스트 길이를 확장함으로써, 우리는 추가적인 비디오 학습 없이도 LMMs가 몇 배나 더 많은 시각 토큰을 이해할 수 있게 만들었습니다. 이를 장기 컨텍스트 전송(long context transfer) 현상이라고 명명하고, 그 특성을 철저히 분석하였습니다.시각 모달에서 LMMs의 장기 컨텍스트 일반화 능력을 효과적으로 측정하기 위해, 우리는 언어 모델의 NIAH 테스트에서 영감을 얻어 순수하게 합성된 장기 시각 벤치마크인 V-NIAH (Visual Needle-In-A-Haystack)를 개발하였습니다. 우리가 제안하는 장기 비디오 어시스턴트(Long Video Assistant, LongVA)는 추가적인 복잡성 없이 2000 프레임 또는 20만 개 이상의 시각 토큰을 처리할 수 있습니다. 확장된 컨텍스트 길이 덕분에, LongVA는 7억 규모의 모델들 중에서 Video-MME에서 최고 성능을 달성하였습니다. 입력 프레임을 더욱 밀집하게 샘플링함으로써 이러한 성과를 이룰 수 있었습니다.본 연구는 오픈 소스로 공개되어 있으며, 다음 주소에서 확인하실 수 있습니다: https://github.com/EvolvingLMMs-Lab/LongVA.

언어에서 시각으로의 장문 맥락 전달 | 최신 연구 논문 | HyperAI초신경