2달 전

LongVILA: 긴 컨텍스트 시각 언어 모델을 긴 비디오에 확장

Fuzhao Xue, Yukang Chen, Dacheng Li, Qinghao Hu, Ligeng Zhu, Xiuyu Li, Yunhao Fang, Haotian Tang, Shang Yang, Zhijian Liu, Ethan He, Hongxu Yin, Pavlo Molchanov, Jan Kautz, Linxi Fan, Yuke Zhu, Yao Lu, Song Han
LongVILA: 긴 컨텍스트 시각 언어 모델을 긴 비디오에 확장
초록

장문 컨텍스트 처리 능력은 다중 모드 기반 모델에 있어 매우 중요합니다. 우리는 장문 컨텍스트 비전-언어 모델을 위한 종합적인 솔루션인 LongVILA를 소개합니다. 이 솔루션은 시스템, 모델 훈련, 데이터셋 개발 등을 포함합니다. 시스템 측면에서는 256개의 GPU에서 2M 컨텍스트 길이 훈련을 가능하게 하는 첫 번째 다중 모드 시퀀스 병렬 처리(Multi-Modal Sequence Parallelism, MM-SP) 시스템을 제안합니다. MM-SP는 효율적이며, 순환 스타일 시퀀스 병렬 처리(Ring-Style Sequence Parallelism)보다 2.1배에서 5.7배 빠르고, 텍스트 전용 환경에서는 Megatron-LM보다 1.1배에서 1.4배 빠릅니다. 또한 MM-SP는 Hugging Face Transformers와 원활하게 통합됩니다.모델 훈련 측면에서는 정렬(Alignment), 사전 훈련(Pre-training), 컨텍스트 확장(Context Extension), 그리고 장단기 결합 감독된 미세 조정(Long-Short Joint Supervised Fine-Tuning)으로 구성된 다섯 단계 파이프라인을 제안합니다. 데이터셋 측면에서는 우리 다단계 훈련 과정을 지원하기 위해 대규모 비주얼 언어 사전 훈련 데이터셋과 장 영상 지시사항 추종 데이터셋을 세심하게 구축했습니다.종합적인 솔루션은 VILA의 가능한 프레임 수를 128배 확장하여(8프레임에서 1024프레임까지) 장 영상 자막 생성 점수를 2.00에서 3.26(1.6배)로 개선했습니다. 또한 1400프레임 영상(274k 컨텍스트 길이)에서 바늘 찾기 작업의 정확도가 99.5%에 달했습니다. LongVILA-8B는 VideoMME 벤치마크에서 영상 프레임 수가 증가함에 따라 장 영상 성능이 일관되게 개선되는 것을 보여줍니다.