mPLUG-Owl: 모듈화가 대규모 언어 모델에 다중모달성 부여한다

대규모 언어 모델(Large Language Models, LLMs)은 다양한 개방형 과제에서 놀라운 제로샷(zero-shot) 능력을 보여주었으며, 최근 연구에서는 LLM을 다중 모달 생성에 활용하는 방향으로도 확장되고 있다. 본 연구에서는 기초 LLM, 시각 지식 모듈, 시각 추상화 모듈을 모듈화된 학습 방식을 통해 통합함으로써 LLM에 다중 모달 능력을 부여하는 새로운 학습 프레임워크인 mPLUG-Owl을 제안한다. 이 접근법은 다양한 모달 간의 협업을 통해 다중 모달 및 단일 모달 능력을 효과적으로 지원할 수 있다. mPLUG-Owl의 학습 프레임워크는 이미지와 텍스트를 정렬하기 위한 이단계적 방법을 포함하며, LLM의 도움을 받아 시각 지식을 학습하면서도 LLM의 생성 능력을 유지하거나 오히려 향상시킨다. 첫 번째 단계에서는 고정된 LLM 모듈을 기반으로 시각 지식 모듈과 추상화 모듈을 함께 학습하여 이미지와 텍스트 간의 정렬을 달성한다. 두 번째 단계에서는 언어 전용 및 다중 모달 지도 데이터셋을 활용하여, 시각 지식 모듈은 고정된 상태로 유지하면서 LLM과 추상화 모듈에 대해 저랭크 적응(Low-Rank Adaptation, LoRA) 모듈을 공동으로 미세조정한다. 또한 시각 관련 지시어 평가를 위한 특별히 설계된 평가 세트인 OwlEval을 철저히 구축하였다. 실험 결과, 기존의 다중 모달 모델들과 비교하여 본 모델이 우수한 성능을 보였으며, mPLUG-Owl이 뛰어난 지시어 이해 능력, 시각 이해 능력, 다단계 대화 수행 능력 및 지식 추론 능력을 보유하고 있음을 입증하였다. 더불어 다중 이미지 간의 상관관계 인식 및 장면 내 텍스트 이해와 같은 예상치 못한 흥미로운 능력을 관찰하였으며, 이는 시각 정보만으로 문서 이해와 같은 더 복잡한 실제 시나리오에 활용 가능함을 시사한다. 본 연구의 코드, 사전 훈련된 모델, 지시어 조정 모델 및 평가 세트는 https://github.com/X-PLUG/mPLUG-Owl 에서 공개되며, 온라인 데모는 https://www.modelscope.cn/studios/damo/mPLUG-Owl 에서 확인할 수 있다.