2ヶ月前

Pix2Struct: スクリーンショット解析を用いた視覚言語理解の事前学習

Lee, Kenton ; Joshi, Mandar ; Turc, Iulia ; Hu, Hexiang ; Liu, Fangyu ; Eisenschlos, Julian ; Khandelwal, Urvashi ; Shaw, Peter ; Chang, Ming-Wei ; Toutanova, Kristina
Pix2Struct: スクリーンショット解析を用いた視覚言語理解の事前学習
要約

視覚的な文脈に位置付けられた言語は普遍的であり、その情報源は図表を含む教科書から画像や表が含まれるウェブページ、ボタンやフォームが配置されたモバイルアプリまで多岐にわたります。この多様性のため、従来の研究では、基本的なデータ、モデルアーキテクチャ、および目的の共有が限られている領域固有の手法に依存することが一般的でした。本稿では、純粋な視覚的な言語理解のために設計され、視覚的な文脈に位置付けられた言語を含むタスクで微調整可能な事前学習済み画像対テキストモデル「Pix2Struct」を紹介します。Pix2Structは、ウェブページのマスクされたスクリーンショットを単純化されたHTMLに解析する能力を学習することで事前学習されます。ウェブには視覚要素が豊富に存在し、それらがHTML構造に明確に反映されているため、下流タスクの多様性に対応した大量の事前学習データ源となっています。直感的には、この目的はOCR(光学文字認識)、言語モデリング、画像キャプション生成などの一般的な事前学習シグナルを包含しています。新しい事前学習戦略だけでなく、可変解像度入力表現と視覚・言語入力のより柔軟な統合も導入しており、質問などの言語プロンプトが直接入力画像上に描画されるようにしています。初めて本研究では、単一の事前学習済みモデルが4つの異なる領域(ドキュメント、イラストレーション、ユーザーインターフェース、自然画像)における9つのタスクのうち6つで最先端の結果を達成できることを示しました。