13일 전

오티어: 컨텍스트 내 지시 조정을 갖춘 다중 모달 모델

Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Jingkang Yang, Ziwei Liu
오티어: 컨텍스트 내 지시 조정을 갖춘 다중 모달 모델
초록

대규모 언어 모델(Large Language Models, LLMs)은 GPT-3와 같이 방대한 텍스트 데이터를 기반으로 사전 학습을 거치면서, 다양한 작업에서 소수/영-shot 학습 능력이라는 일반화된 능력을 보여주며, 자연어 지시어를 효과적으로 따르며 실제 세계의 과제를 수행할 수 있게 되었다. 본 논문에서는 Flamingo 모델의 상류부 혼합 형식 사전 학습 데이터셋에 영감을 받아, 다중모달 모델에 지시어 튜닝(instruction tuning)을 도입하는 방안을 제안한다. 이를 위해 유사한 접근 방식을 활용하여 다중모달 컨텍스트 내 지시어 튜닝(MultI-Modal In-Context Instruction Tuning, MIMIC-IT) 데이터셋을 구축하였다. 이후 MIMIC-IT 데이터셋을 기반으로 학습된 Otter라는 다중모달 모델을 제안하며, 이는 OpenFlamingo(DeepMind의 Flamingo 모델의 오픈소스 버전) 기반으로 개발되어 지시어 수행 능력과 컨텍스트 내 학습 능력이 향상된 특징을 보인다. 또한, 연구자들이 보다 쉽게 접근할 수 있도록 OpenFlamingo의 구현을 최적화하여, 기존에 필요했던 1개의 A100 GPU에서 4개의 RTX-3090 GPU로 학습 자원을 대폭 낮추었으며, OpenFlamingo와 Otter를 모두 Hugging Face Transformers에 통합하여 연구자들이 자신만의 학습 및 추론 파이프라인에 모델을 쉽게 통합할 수 있도록 하였다.

오티어: 컨텍스트 내 지시 조정을 갖춘 다중 모달 모델 | 최신 연구 논문 | HyperAI초신경