8 个月前

多模态表征

自然语言处理

Lee Kenton ; Joshi Mandar ; Turc Iulia ; Hu Hexiang ; Liu Fangyu ; Eisenschlos Julian ; Khandelwal Urvashi ; Shaw Peter ; Chang Ming-Wei ; Toutanova

摘要

视觉定位语言无处不在——来源包括带有图表的教科书、包含图像和表格的网页，以及带有按钮和表单的移动应用程序。或许由于这种多样性，以往的研究通常依赖于特定领域的解决方案，对底层数据、模型架构和目标的共享有限。我们介绍了Pix2Struct，这是一种用于纯视觉语言理解的预训练图像到文本模型，可以针对包含视觉定位语言的任务进行微调。Pix2Struct通过学习解析网页的遮罩截图并将其转换为简化版HTML进行预训练。网络以其丰富的视觉元素清晰地反映在HTML结构中，提供了大量适合下游任务多样性的预训练数据。直观来看，这一目标涵盖了常见的预训练信号，如光学字符识别（OCR）、语言建模和图像描述生成。除了新颖的预训练策略外，我们还引入了可变分辨率输入表示和更灵活的语言与视觉输入集成方法，其中语言提示（如问题）直接渲染在输入图像之上。首次证明了一个单一的预训练模型可以在四个领域（文档、插图、用户界面和自然图像）中的九个任务中的六个任务上达到最先进的结果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

自然语言处理

Lee Kenton ; Joshi Mandar ; Turc Iulia ; Hu Hexiang ; Liu Fangyu ; Eisenschlos Julian ; Khandelwal Urvashi ; Shaw Peter ; Chang Ming-Wei ; Toutanova

摘要

视觉定位语言无处不在——来源包括带有图表的教科书、包含图像和表格的网页，以及带有按钮和表单的移动应用程序。或许由于这种多样性，以往的研究通常依赖于特定领域的解决方案，对底层数据、模型架构和目标的共享有限。我们介绍了Pix2Struct，这是一种用于纯视觉语言理解的预训练图像到文本模型，可以针对包含视觉定位语言的任务进行微调。Pix2Struct通过学习解析网页的遮罩截图并将其转换为简化版HTML进行预训练。网络以其丰富的视觉元素清晰地反映在HTML结构中，提供了大量适合下游任务多样性的预训练数据。直观来看，这一目标涵盖了常见的预训练信号，如光学字符识别（OCR）、语言建模和图像描述生成。除了新颖的预训练策略外，我们还引入了可变分辨率输入表示和更灵活的语言与视觉输入集成方法，其中语言提示（如问题）直接渲染在输入图像之上。首次证明了一个单一的预训练模型可以在四个领域（文档、插图、用户界面和自然图像）中的九个任务中的六个任务上达到最先进的结果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供