11일 전

언어, 시각, 시각-언어 이해 작업을 위한 일반적 기반 모델 구축을 향해

Xinsong Zhang, Yan Zeng, Jipeng Zhang, Hang Li
언어, 시각, 시각-언어 이해 작업을 위한 일반적 기반 모델 구축을 향해
초록

기초 모델(Foundation models) 또는 사전 학습 모델은 다양한 언어, 시각, 시각-언어 이해 작업에서 성능을 크게 향상시켰다. 그러나 기존의 기초 모델은 언어, 시각, 시각-언어 중 하나의 작업 유형에 대해서만 최고의 성능을 발휘할 수 있다. 모든 이해 작업에서 최고의 성능을 발휘할 수 있는 기초 모델을 구축하는 것이 가능한지 여부는 여전히 미해결 과제이며, 이를 우리는 일반 기초 모델(General Foundation Model)이라고 부른다. 본 논문에서는 새로운 일반 기초 모델인 X-FM(X-Foundation Model)을 제안한다. X-FM는 하나의 언어 인코더, 하나의 시각 인코더, 하나의 융합 인코더를 포함하며, 새로운 학습 방법을 도입하였다. 이 학습 방법은 텍스트, 이미지, 이미지-텍스트 쌍 데이터로부터 X-FM를 학습하기 위한 두 가지 새로운 기술을 포함한다. 첫 번째는 언어 인코더를 학습할 때 시각-언어 학습에서의 기울기(gradient)를 차단하는 기법이며, 두 번째는 시각-언어 학습을 활용하여 시각 인코더의 학습을 안내하는 기법이다. 벤치마크 데이터셋을 대상으로 수행한 광범위한 실험 결과, X-FM는 기존의 일반 기초 모델을 크게 능가하며, 언어, 시각, 시각-언어 이해에 특화된 기존 기초 모델들과 비교해도 우수하거나 동등한 성능을 보였다. 코드와 사전 학습 모델은 https://github.com/zhangxinsong-nlp/XFM 에 공개되어 있다.

언어, 시각, 시각-언어 이해 작업을 위한 일반적 기반 모델 구축을 향해 | 최신 연구 논문 | HyperAI초신경