2 个月前

PaLI-3 视觉语言模型:更小、更快、更强

Chen, Xi ; Wang, Xiao ; Beyer, Lucas ; Kolesnikov, Alexander ; Wu, Jialin ; Voigtlaender, Paul ; Mustafa, Basil ; Goodman, Sebastian ; Alabdulmohsin, Ibrahim ; Padlewski, Piotr ; Salz, Daniel ; Xiong, Xi ; Vlasic, Daniel ; Pavetic, Filip ; Rong, Keran ; Yu, Tianli ; Keysers, Daniel ; Zhai, Xiaohua ; Soricut, Radu
PaLI-3 视觉语言模型:更小、更快、更强
摘要

本文介绍了PaLI-3,这是一种体积更小、速度更快且性能更强的视觉语言模型(VLM),其表现可与比其大10倍的类似模型相媲美。为了达到这一优异性能,我们对比了使用分类目标预训练的视觉变压器(ViT)模型与对比预训练的SigLIP模型。研究发现,虽然在标准图像分类基准测试中略逊一筹,但基于SigLIP的PaLI在各种多模态基准测试中表现出色,尤其是在定位和视觉场景下的文本理解方面。我们将SigLIP图像编码器扩展至20亿参数规模,并在多语言跨模态检索任务上达到了新的最先进水平。我们希望仅包含50亿参数的PaLI-3能够重新激发对复杂VLM基本组件的研究,并推动新一代大规模模型的发展。

PaLI-3 视觉语言模型:更小、更快、更强 | 最新论文 | HyperAI超神经