LongVILA: 긴 컨텍스트 시각 언어 모델을 긴 비디오에 확장

장문 컨텍스트 처리 능력은 다중 모드 기반 모델에 있어 매우 중요합니다. 우리는 장문 컨텍스트 비전-언어 모델을 위한 종합적인 솔루션인 LongVILA를 소개합니다. 이 솔루션은 시스템, 모델 훈련, 데이터셋 개발 등을 포함합니다. 시스템 측면에서는 256개의 GPU에서 2M 컨텍스트 길이 훈련을 가능하게 하는 첫 번째 다중 모드 시퀀스 병렬 처리(Multi-Modal Sequence Parallelism, MM-SP) 시스템을 제안합니다. MM-SP는 효율적이며, 순환 스타일 시퀀스 병렬 처리(Ring-Style Sequence Parallelism)보다 2.1배에서 5.7배 빠르고, 텍스트 전용 환경에서는 Megatron-LM보다 1.1배에서 1.4배 빠릅니다. 또한 MM-SP는 Hugging Face Transformers와 원활하게 통합됩니다.모델 훈련 측면에서는 정렬(Alignment), 사전 훈련(Pre-training), 컨텍스트 확장(Context Extension), 그리고 장단기 결합 감독된 미세 조정(Long-Short Joint Supervised Fine-Tuning)으로 구성된 다섯 단계 파이프라인을 제안합니다. 데이터셋 측면에서는 우리 다단계 훈련 과정을 지원하기 위해 대규모 비주얼 언어 사전 훈련 데이터셋과 장 영상 지시사항 추종 데이터셋을 세심하게 구축했습니다.종합적인 솔루션은 VILA의 가능한 프레임 수를 128배 확장하여(8프레임에서 1024프레임까지) 장 영상 자막 생성 점수를 2.00에서 3.26(1.6배)로 개선했습니다. 또한 1400프레임 영상(274k 컨텍스트 길이)에서 바늘 찾기 작업의 정확도가 99.5%에 달했습니다. LongVILA-8B는 VideoMME 벤치마크에서 영상 프레임 수가 증가함에 따라 장 영상 성능이 일관되게 개선되는 것을 보여줍니다.