2달 전
PaLI-X: 다국어 시각 및 언어 모델의 확장에 관한 연구
Chen, Xi ; Djolonga, Josip ; Padlewski, Piotr ; Mustafa, Basil ; Changpinyo, Soravit ; Wu, Jialin ; Ruiz, Carlos Riquelme ; Goodman, Sebastian ; Wang, Xiao ; Tay, Yi ; Shakeri, Siamak ; Dehghani, Mostafa ; Salz, Daniel ; Lucic, Mario ; Tschannen, Michael ; Nagrani, Arsha ; Hu, Hexiang ; Joshi, Mandar ; Pang, Bo ; Montgomery, Ceslee ; Pietrzyk, Paulina ; Ritter, Marvin ; Piergiovanni, AJ ; Minderer, Matthias ; Pavetic, Filip ; Waters, Austin ; Li, Gang ; Alabdulmohsin, Ibrahim ; Beyer, Lucas ; Amelot, Julien ; Lee, Kenton ; Steiner, Andreas Peter ; Li, Yang ; Keysers, Daniel ; Arnab, Anurag ; Xu, Yuanzhong ; Rong, Keran ; Kolesnikov, Alexander ; Seyedhosseini, Mojtaba ; Angelova, Anelia ; Zhai, Xiaohua ; Houlsby, Neil ; Soricut, Radu

초록
우리는 다국어 비전 및 언어 모델인 PaLI-X의 확장에 대한 훈련 레시피와 결과를 구성 요소의 크기와 훈련 작업 혼합의 폭 측면에서 제시합니다. 우리의 모델은 다양한 이미지 기반 캡셔닝과 질문-답변 작업, 이미지 기반 문서 이해 및 소수 샷(문맥 내) 학습, 그리고 객체 검출, 비디오 질문 답변, 비디오 캡셔닝 등 다양한 복잡한 작업에서 새로운 수준의 성능을 달성하였습니다. PaLI-X는 대부분의 비전-언어 벤치마크 (25개 이상)에서 최신 기술 수준을 발전시켰습니다. 마지막으로, 명시적으로 훈련 혼합에 포함되지 않은 작업들, 예를 들어 복잡한 카운팅과 다국어 객체 검출 등의 능력이 나타나는 것을 관찰하였습니다.