MiniGPT-4: 고급 대규모 언어 모델을 활용한 시각-언어 이해 향상

최근 발표된 GPT-4는 손글씨 텍스트로부터 직접 웹사이트를 생성하거나 이미지 속 유머 요소를 식별하는 등 놀라운 다중모달 능력을 보여주었다. 이러한 기능들은 이전의 시각-언어 모델에서는 거의 관찰되지 않았다. 그러나 GPT-4의 기술적 세부 사항은 여전히 공개되지 않은 상태이다. 우리는 GPT-4의 향상된 다중모달 생성 능력이 고도로 발전된 대규모 언어 모델(LLM)을 활용한 결과라고 믿는다. 이러한 현상을 탐구하기 위해, 동결된 시각 인코더와 동결된 고급 대규모 언어 모델인 Vicuna를 하나의 투영 계층을 통해 정렬하는 MiniGPT-4를 제안한다. 본 연구는 처음으로 고급 대규모 언어 모델과 시각 특징을 적절히 정렬함으로써 GPT-4가 보여준 다양한 고급 다중모달 능력—예를 들어 이미지에 대한 상세한 설명 생성, 손그림 스케치로부터 웹사이트 생성 등—을 구현할 수 있음을 밝혀냈다. 또한 MiniGPT-4에서는 주어진 이미지에 기반하여 이야기나 시를 창작하거나, 음식 사진을 바탕으로 요리 방법을 가르쳐주는 등 기타 새로운 능력들도 관찰되었다. 실험 결과, 짧은 이미지 설명 쌍으로만 훈련된 모델은 자연스럽지 않은 언어 출력(예: 반복, 단절)을 생성하는 것으로 나타났다. 이 문제를 해결하기 위해, 두 번째 단계에서 상세한 이미지 설명 데이터셋을 수집하여 모델을 미세조정하였으며, 이로 인해 모델의 생성 신뢰도와 전반적인 활용성은 크게 향상되었다. 본 연구의 코드, 사전 학습 모델 및 수집된 데이터셋은 https://minigpt-4.github.io/ 에서 공개되어 있다.