2 个月前

PaLI-X:扩展多语言视觉与语言模型

Chen, Xi ; Djolonga, Josip ; Padlewski, Piotr ; Mustafa, Basil ; Changpinyo, Soravit ; Wu, Jialin ; Ruiz, Carlos Riquelme ; Goodman, Sebastian ; Wang, Xiao ; Tay, Yi ; Shakeri, Siamak ; Dehghani, Mostafa ; Salz, Daniel ; Lucic, Mario ; Tschannen, Michael ; Nagrani, Arsha ; Hu, Hexiang ; Joshi, Mandar ; Pang, Bo ; Montgomery, Ceslee ; Pietrzyk, Paulina ; Ritter, Marvin ; Piergiovanni, AJ ; Minderer, Matthias ; Pavetic, Filip ; Waters, Austin ; Li, Gang ; Alabdulmohsin, Ibrahim ; Beyer, Lucas ; Amelot, Julien ; Lee, Kenton ; Steiner, Andreas Peter ; Li, Yang ; Keysers, Daniel ; Arnab, Anurag ; Xu, Yuanzhong ; Rong, Keran ; Kolesnikov, Alexander ; Seyedhosseini, Mojtaba ; Angelova, Anelia ; Zhai, Xiaohua ; Houlsby, Neil ; Soricut, Radu
PaLI-X:扩展多语言视觉与语言模型
摘要

我们介绍了多语言视觉与语言模型PaLI-X的训练方法及其在组件规模和训练任务多样性方面的扩展结果。该模型在多种复杂任务上实现了新的性能水平,包括基于图像的标题生成和问答任务、基于图像的文档理解、少量样本(上下文)学习,以及目标检测、视频问答和视频标题生成。PaLI-X在大多数考虑的视觉与语言基准测试中(超过25个)取得了最先进的成果。最后,我们观察到一些新兴能力的出现,例如复杂的计数和多语言目标检测,这些任务并未明确包含在训练任务组合中。

PaLI-X:扩展多语言视觉与语言模型 | 最新论文 | HyperAI超神经