2달 전

PaLI: 다중 규모의 다국어 언어-이미지 모델

Xi Chen; Xiao Wang; Soravit Changpinyo; AJ Piergiovanni; Piotr Padlewski; Daniel Salz; Sebastian Goodman; Adam Grycner; Basil Mustafa; Lucas Beyer; Alexander Kolesnikov; Joan Puigcerver; Nan Ding; Keran Rong; Hassan Akbari; Gaurav Mishra; Linting Xue; Ashish Thapliyal; James Bradbury; Weicheng Kuo; Mojtaba Seyedhosseini; Chao Jia; Burcu Karagol Ayan; Carlos Riquelme; Andreas Steiner; Anelia Angelova; Xiaohua Zhai; Neil Houlsby; Radu Soricut
PaLI: 다중 규모의 다국어 언어-이미지 모델
초록

효율적인 확장과 유연한 작업 인터페이스는 대형 언어 모델이 다양한 작업에서 뛰어난 성능을 발휘할 수 있게 합니다. 본 연구에서는 이 접근 방식을 언어와 시각의 공동 모델링으로 확장한 PaLI (Pathways Language and Image model)를 소개합니다. PaLI는 시각적 및 텍스트 입력을 기반으로 텍스트를 생성하며, 이 인터페이스를 통해 여러 시각, 언어, 그리고 다중모달(multimodal) 작업을 여러 언어로 수행합니다. PaLI를 훈련시키기 위해 우리는 대형 사전 학습된 인코더-디코더 언어 모델과 비전 트랜스포머(Vision Transformers, ViTs)를 활용합니다. 이를 통해 기존의 능력을 최대한 활용하고, 그들을 훈련시키는 데 드는 큰 비용을 활용할 수 있습니다. 우리는 시각과 언어 구성 요소의 공동 확장이 중요하다는 것을 발견했습니다. 기존의 언어 트랜스포머보다 시각 트랜스포머가 훨씬 작기 때문에, 40억 개 매개변수를 가진 더 큰 용량의 ViT (ViT-e)를 훈련시켜 더 큰 용량의 시각 모델로부터 얻을 수 있는 이점을 측정하였습니다. PaLI를 훈련시키기 위해 우리는 100여 개 이상의 언어로 작성된 10B 개 이미지와 텍스트가 포함된 새로운 이미지-텍스트 훈련 세트를 기반으로 한 대규모 다언어 사전 학습 작업 혼합물을 만들었습니다. PaLI는 캡셔닝, 시각적 질문 응답, 장면 텍스트 이해 등 여러 시각 및 언어 작업에서 최고 수준의 성능을 달성하면서도 단순하고 모듈화되며 확장 가능한 설계를 유지합니다.

PaLI: 다중 규모의 다국어 언어-이미지 모델 | 최신 연구 논문 | HyperAI초신경