2달 전

M2-인코더: 대규모 효율적인 사전 학습을 통한 양언어 이미지-텍스트 이해의 발전

Qingpei Guo; Furong Xu; Hanxiao Zhang; Wang Ren; Ziping Ma; Lin Ju; Jian Wang; Jingdong Chen; Ming Yang
M2-인코더: 대규모 효율적인 사전 학습을 통한 양언어 이미지-텍스트 이해의 발전
초록

비전-언어 기반 모델(Vision-language foundation models)인 CLIP과 같은 모델들은 인공지능 분야에 혁신을 가져왔습니다. 그러나 중국어와 영어를 동시에 지원하는 다국어 비전-언어 모델(VLM models)은 대규모 사전 학습 데이터셋의 상대적인 부족으로 인해 발전이 더디었습니다. 이 문제를 해결하기 위해, 우리는 60억 개 이상의 이미지-텍스트 쌍을 포함하는 포괄적인 양자 언어(중국어-영어) 데이터셋 BM-6B를 소개합니다. 이 데이터셋은 양자 언어에서 이미지를 잘 이해할 수 있는 다모달 기반 모델(multimodal foundation models)을 향상시키는 데 목표를 두고 있습니다.이와 같은 규모의 데이터셋을 처리하기 위해, 우리는 이미지-텍스트 대조 손실(image-text contrastive loss) 계산을 위한 새로운 그룹화 집계 방법(grouped aggregation approach)을 제안합니다. 이 방법은 통신 오버헤드와 GPU 메모리 요구량을 크게 줄여, 학습 속도를 60% 증가시킵니다. 우리는 BM-6B에서 강화된 세부 이해 능력을 갖춘 일련의 양자 언어 이미지-텍스트 기반 모델(bilingual image-text foundation models)을 사전 학습(pretrain)하였습니다. 이러한 모델들은 "M-Square"로 발음되는 $M^2$-인코더($M^2$-Encoders)라는 이름으로 알려져 있으며, 양자 언어 모두에서 다모달 검색 및 분류 작업(multimodal retrieval and classification tasks)에 새로운 기준을 설정하였습니다.특히, 가장 큰 $M^2$-인코더-10B($M^2$-Encoder-10B) 모델은 제로샷 분류(zero-shot classification) 환경에서 ImageNet에서 88.5%, ImageNet-CN에서 80.7%의 최고 정확도를 달성하여 각각 기존 최고 성능(SoTA) 방법론보다 2.2%와 21.1% 높은 결과를 보였습니다. $M^2$-인코더 시리즈는 현재까지 가장 포괄적인 양자 언어 이미지-텍스트 기반 모델 중 하나로, 이를 연구 커뮤니티에 제공하여 추가 탐구와 개발을 돕기로 하였습니다.

M2-인코더: 대규모 효율적인 사전 학습을 통한 양언어 이미지-텍스트 이해의 발전 | 최신 연구 논문 | HyperAI초신경