2달 전

비전-언어 모델을 구축할 때 중요한 사항은 무엇인가?

Hugo Laurençon, Léo Tronchon, Matthieu Cord, Victor Sanh
비전-언어 모델을 구축할 때 중요한 사항은 무엇인가?
초록

비전-언어 모델(VLMs)에 대한 관심의 증가는 대형 언어 모델과 비전 트랜스포머의 개선으로 인해 촉진되었습니다. 그러나 이 주제에 관한 많은 문헌이 존재함에도 불구하고, 우리는 VLM 설계와 관련된 중요한 결정들이 종종 정당화되지 않는다는 점을 관찰하였습니다. 이러한 근거 없는 결정들은 모델 성능을 향상시키는 선택을 식별하기 어렵게 하여 분야의 발전을 저해한다고 주장합니다. 이 문제를 해결하기 위해, 우리는 사전 학습된 모델, 아키텍처 선택, 데이터 및 학습 방법에 대해 광범위한 실험을 수행하였습니다. 우리의 연구 결과의 집약은 80억 개의 매개변수를 가진 효율적인 기초 VLM인 Idefics2의 개발을 포함합니다. Idefics2는 다양한 다중모달 벤치마크에서 크기 범주 내에서 최고 수준의 성능을 달성하며, 종종 그 크기의 네 배에 해당하는 모델들과 비슷한 성능을 보입니다. 우리는 이 모델(베이스, 지시형, 채팅형)과 그 학습을 위한 데이터셋들을 함께 공개합니다.

비전-언어 모델을 구축할 때 중요한 사항은 무엇인가? | 최신 연구 논문 | HyperAI초신경