2 个月前
Pix2Struct: 屏幕截图解析作为视觉语言理解的预训练
Lee, Kenton ; Joshi, Mandar ; Turc, Iulia ; Hu, Hexiang ; Liu, Fangyu ; Eisenschlos, Julian ; Khandelwal, Urvashi ; Shaw, Peter ; Chang, Ming-Wei ; Toutanova, Kristina

摘要
视觉定位语言无处不在——来源包括带有图表的教科书、包含图像和表格的网页,以及带有按钮和表单的移动应用程序。或许由于这种多样性,以往的研究通常依赖于特定领域的解决方案,对底层数据、模型架构和目标的共享有限。我们介绍了Pix2Struct,这是一种用于纯视觉语言理解的预训练图像到文本模型,可以针对包含视觉定位语言的任务进行微调。Pix2Struct通过学习解析网页的遮罩截图并将其转换为简化版HTML进行预训练。网络以其丰富的视觉元素清晰地反映在HTML结构中,提供了大量适合下游任务多样性的预训练数据。直观来看,这一目标涵盖了常见的预训练信号,如光学字符识别(OCR)、语言建模和图像描述生成。除了新颖的预训练策略外,我们还引入了可变分辨率输入表示和更灵活的语言与视觉输入集成方法,其中语言提示(如问题)直接渲染在输入图像之上。首次证明了一个单一的预训练模型可以在四个领域(文档、插图、用户界面和自然图像)中的九个任务中的六个任务上达到最先进的结果。