7일 전
mPLUG-Owl3: 다중모달 대규모언어모델에서 긴 이미지 시퀀스 이해를 위한 접근
Jiabo Ye, Haiyang Xu, Haowei Liu, Anwen Hu, Ming Yan, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou

초록
다중 모달 대규모 언어 모델(Multi-modal Large Language Models, MLLMs)은 다양한 단일 이미지 작업에 대한 지시를 수행하는 데 뛰어난 능력을 보여주었다. 그러나 장시간 이미지 시퀀스를 모델링하는 데에는 여전히 큰 도전 과제가 남아 있다. 본 연구에서는 검색된 이미지-텍스트 지식, 교차 배치된 이미지-텍스트, 그리고 긴 비디오를 포함한 다양한 시나리오에서 장시간 이미지 시퀀스 이해 능력을 향상시킨 유연한 다중 모달 대규모 언어 모델 mPLUG-Owl3을 제안한다. 구체적으로, 시각 정보와 언어 정보를 효율적으로 통합하여 공통의 언어 지도형 의미 공간에 매핑하는 새로운 하이퍼 어텐션 블록을 제안함으로써, 확장된 다중 이미지 시나리오 처리를 촉진한다. 광범위한 실험 결과는 mPLUG-Owl3이 유사한 크기의 모델들 중에서 단일 이미지, 다중 이미지 및 비디오 벤치마크에서 최고 수준의 성능을 달성함을 시사한다. 또한, 모델이 방해 요소 속에서도 집중력을 유지하는 능력을 평가하기 위해 도전적인 장시간 시각 시퀀스 평가 기준인 '방해 요소 저항성(Distractor Resistance)'을 제안한다. 마지막으로, 제안된 아키텍처를 기반으로 mPLUG-Owl3은 초장시간 시각 시퀀스 입력에 대해 뛰어난 성능을 보여준다. 우리는 mPLUG-Owl3이 더욱 효율적이고 강력한 다중 모달 대규모 언어 모델의 개발에 기여할 수 있기를 기대한다.