2달 전

PaLI-3 비전 언어 모델: 더 작고, 더 빠르고, 더 강력함

Chen, Xi ; Wang, Xiao ; Beyer, Lucas ; Kolesnikov, Alexander ; Wu, Jialin ; Voigtlaender, Paul ; Mustafa, Basil ; Goodman, Sebastian ; Alabdulmohsin, Ibrahim ; Padlewski, Piotr ; Salz, Daniel ; Xiong, Xi ; Vlasic, Daniel ; Pavetic, Filip ; Rong, Keran ; Yu, Tianli ; Keysers, Daniel ; Zhai, Xiaohua ; Soricut, Radu
PaLI-3 비전 언어 모델: 더 작고, 더 빠르고, 더 강력함
초록

본 논문은 PaLI-3를 소개합니다. 이는 크기가 작고, 속도가 빠르며, 성능이 우수한 시각 언어 모델(Vision Language Model, VLM)로, 유사한 10배 큰 모델들과 비교해도 뒤지지 않는 성능을 보입니다. 이러한 강력한 성능을 달성하기 위해, 분류 목표를 사용하여事前訓練된 Vision Transformer (ViT) 모델과 대조적으로 (SigLIP) 사전 훈련된 모델들을 비교하였습니다. 분류 이미지 벤치마크에서 약간 열등한 성능을 보이는 반면, SigLIP 기반의 PaLI는 다양한 다중모달 벤치마크에서 특히 위치 추정(localization) 및 시각적 맥락에 기반한 텍스트 이해 측면에서 우수한 성능을 보였습니다. 우리는 SigLIP 이미지 인코더를 20억 개의 매개변수까지 확장하였으며, 다국어 교차모달 검색에서 새로운 최고 수준의 성능을 달성하였습니다. 단 50억 개의 매개변수만으로 구성된 PaLI-3가 복잡한 VLM의 핵심 요소에 대한 연구를 재점화하고, 새로운 세대의 확장된 모델들을 촉진할 수 있기를 바랍니다.注:在翻译中,“事前训练”(pretrained)被误译为中文,应改为“사전 훈련”。以下是修正后的版本:본 논문은 PaLI-3를 소개합니다. 이는 크기가 작고, 속도가 빠르며, 성능이 우수한 시각 언어 모델(Vision Language Model, VLM)로, 유사한 10배 큰 모델들과 비교해도 뒤지지 않는 성능을 보입니다. 이러한 강력한 성능을 달성하기 위해, 분류 목표를 사용하여 사전 훈련된 Vision Transformer (ViT) 모델과 대조적으로 (SigLIP) 사전 훈련된 모델들을 비교하였습니다. 분류 이미지 벤치마크에서 약간 열등한 성능을 보이는 반면, SigLIP 기반의 PaLI는 다양한 다중모달 벤치마크에서 특히 위치 추정(localization) 및 시각적 맥락에 기반한 텍스트 이해 측면에서 우수한 성능을 보였습니다. 우리는 SigLIP 이미지 인코더를 20억 개의 매개변수까지 확장하였으며, 다국어 교차모달 검색에서 새로운 최고 수준의 성능을 달성하였습니다. 단 50억 개의 매개변수만으로 구성된 PaLI-3가 복잡한 VLM의 핵심 요소에 대한 연구를 재점화하고, 새로운 세대의 확장된 모델들을 촉진할 수 있기를 바랍니다.

PaLI-3 비전 언어 모델: 더 작고, 더 빠르고, 더 강력함 | 최신 연구 논문 | HyperAI초신경