13일 전

mPLUG-Owl: 모듈화가 대규모 언어 모델에 다중모달성 부여한다

Qinghao Ye, Haiyang Xu, Guohai Xu, Jiabo Ye, Ming Yan, Yiyang Zhou, Junyang Wang, Anwen Hu, Pengcheng Shi, Yaya Shi, Chenliang Li, Yuanhong Xu, Hehong Chen, Junfeng Tian, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou
mPLUG-Owl: 모듈화가 대규모 언어 모델에 다중모달성 부여한다
초록

대규모 언어 모델(Large Language Models, LLMs)은 다양한 개방형 과제에서 놀라운 제로샷(zero-shot) 능력을 보여주었으며, 최근 연구에서는 LLM을 다중 모달 생성에 활용하는 방향으로도 확장되고 있다. 본 연구에서는 기초 LLM, 시각 지식 모듈, 시각 추상화 모듈을 모듈화된 학습 방식을 통해 통합함으로써 LLM에 다중 모달 능력을 부여하는 새로운 학습 프레임워크인 mPLUG-Owl을 제안한다. 이 접근법은 다양한 모달 간의 협업을 통해 다중 모달 및 단일 모달 능력을 효과적으로 지원할 수 있다. mPLUG-Owl의 학습 프레임워크는 이미지와 텍스트를 정렬하기 위한 이단계적 방법을 포함하며, LLM의 도움을 받아 시각 지식을 학습하면서도 LLM의 생성 능력을 유지하거나 오히려 향상시킨다. 첫 번째 단계에서는 고정된 LLM 모듈을 기반으로 시각 지식 모듈과 추상화 모듈을 함께 학습하여 이미지와 텍스트 간의 정렬을 달성한다. 두 번째 단계에서는 언어 전용 및 다중 모달 지도 데이터셋을 활용하여, 시각 지식 모듈은 고정된 상태로 유지하면서 LLM과 추상화 모듈에 대해 저랭크 적응(Low-Rank Adaptation, LoRA) 모듈을 공동으로 미세조정한다. 또한 시각 관련 지시어 평가를 위한 특별히 설계된 평가 세트인 OwlEval을 철저히 구축하였다. 실험 결과, 기존의 다중 모달 모델들과 비교하여 본 모델이 우수한 성능을 보였으며, mPLUG-Owl이 뛰어난 지시어 이해 능력, 시각 이해 능력, 다단계 대화 수행 능력 및 지식 추론 능력을 보유하고 있음을 입증하였다. 더불어 다중 이미지 간의 상관관계 인식 및 장면 내 텍스트 이해와 같은 예상치 못한 흥미로운 능력을 관찰하였으며, 이는 시각 정보만으로 문서 이해와 같은 더 복잡한 실제 시나리오에 활용 가능함을 시사한다. 본 연구의 코드, 사전 훈련된 모델, 지시어 조정 모델 및 평가 세트는 https://github.com/X-PLUG/mPLUG-Owl 에서 공개되며, 온라인 데모는 https://www.modelscope.cn/studios/damo/mPLUG-Owl 에서 확인할 수 있다.

mPLUG-Owl: 모듈화가 대규모 언어 모델에 다중모달성 부여한다 | 최신 연구 논문 | HyperAI초신경