2달 전

LLaVA-NeXT-Interleave: 대형 다중 모달 모델에서 다중 이미지, 비디오 및 3D 처리 방안

Feng Li, Renrui Zhang, Hao Zhang, Yuanhan Zhang, Bo Li, Wei Li, Zejun Ma, Chunyuan Li
LLaVA-NeXT-Interleave: 대형 다중 모달 모델에서 다중 이미지, 비디오 및 3D 처리 방안
초록

시각적 지시어 조정(visual instruction tuning)은 대형 다모달 모델(Large Multimodal Models, LMMs)의 기능 향상에 상당한 진전을 이루었습니다. 그러나 현재까지 공개된 LMMs는 주로 단일 이미지 작업에 중점을 두고 있어, 다중 이미지 시나리오에 대한 응용은 아직 충분히 탐구되지 않았습니다. 또한, 이전의 LMM 연구들은 서로 다른 시나리오를 개별적으로 다루었기 때문에 새로운 능력이 나타날 때 이를 횡단 시나리오(cross scenarios)로 일반화하는 것이 불가능했습니다. 이러한 문제를 해결하기 위해, 우리는 LLaVA-NeXT-Interleave를 소개합니다. 이 모델은 동시에 다중 이미지, 다중 프레임(비디오), 다중 뷰(3D), 그리고 다중 패치(단일 이미지) 시나리오를 처리할 수 있습니다. 이러한 기능을 가능하게 하기 위해, 우리는 교차 데이터 형식(interleaved data format)을 일반적인 템플릿으로 간주하고 1,177,600개 샘플로 구성된 M4-Instruct 데이터셋을 컴파일하였습니다. 이 데이터셋은 4개 주요 영역에서 14개 작업과 41개 데이터셋을 포함하고 있습니다. 또한, 우리는 LLaVA-Interleave 벤치마크를 구성하여 LMMs의 다중 이미지 성능을 종합적으로 평가하였습니다. 광범위한 실험을 통해 LLaVA-NeXT-Interleave는 다중 이미지, 비디오 및 3D 벤치마크에서 선도적인 결과를 달성하였으며, 단일 이미지 작업의 성능도 유지하였습니다. 또한 우리의 모델은 서로 다른 환경과 모달리티 사이에서 작업을 전송하는 등의 여러 가지 새로운 능력을 보여주었습니다. 코드는 https://github.com/LLaVA-VL/LLaVA-NeXT 에서 확인할 수 있습니다.