2ヶ月前

ScreenAI: UI およびインフォグラフィックス理解のためのビジョン言語モデル

Baechler, Gilles ; Sunkara, Srinivas ; Wang, Maria ; Zubach, Fedir ; Mansoor, Hassan ; Etter, Vincent ; Cărbune, Victor ; Lin, Jason ; Chen, Jindong ; Sharma, Abhanshu
ScreenAI: UI およびインフォグラフィックス理解のためのビジョン言語モデル
要約

スクリーンユーザーインターフェース(UI)とインフォグラフィックスは、類似の視覚言語とデザイン原則を共有し、人間のコミュニケーションや人機間相互作用において重要な役割を果たしています。本稿では、UIとインフォグラフィックスの理解に特化したビジョン・ランゲージモデルであるScreenAIを紹介します。当モデルは、pix2structの柔軟なパッチ戦略を取り入れたPaLIアーキテクチャを改良しており、独自のデータセットの混合体で学習されています。この混合体の中心には、モデルがUI要素の種類と位置を特定する新しいスクリーン注釈タスクがあります。私たちはこれらのテキスト注釈を使用して、大規模言語モデルに対してスクリーンを説明し、質問応答(QA)、UIナビゲーション、および要約生成のための大規模トレーニングデータセットを自動的に生成します。さらに、アブレーション研究を行ってこれらの設計選択肢の影響を示しています。わずか50億パラメータで、ScreenAIはマルチページDocVQA、WebSRC、MoTIFおよびWidget CaptioningなどのUIおよびインフォグラフィックスベースのタスクにおいて新たな最先端結果を達成し、同規模の他のモデルと比較してChart QA、DocVQAおよびInfographicVQAにおけるクラス最高性能も達成しています。最後に、私たちは3つの新しいデータセットを公開します。1つはスクリーン注釈タスクに焦点を当てており、残り2つは質問応答に焦点を当てています。科技/学术术语处理:Screen user interfaces (UIs): スクリーンユーザーインターフェース(UI)infographics: インフォグラフィックスvision-language model: ビジョン・ランゲージモデルPaLI architecture: PaLIアーキテクチャpix2struct: pix2structscreen annotation task: スクリーン注釈タスクLarge Language Models: 大規模言語モデルquestion-answering (QA): 質問応答(QA)UI navigation: UIナビゲーションsummarization training datasets: 要約生成トレーニングデータセットablation studies: アブレーション研究parameters: パラメータstate-of-the-art results: 最先端結果Multi-page DocVQA: マルチページDocVQAWebSRC: WebSRCMoTIF and Widget Captioning: MoTIFおよびWidget CaptioningChart QA, DocVQA, and InfographicVQA: Chart QA、DocVQAおよびInfographicVQA

ScreenAI: UI およびインフォグラフィックス理解のためのビジョン言語モデル | 最新論文 | HyperAI超神経