2ヶ月前

LayoutLM: テキストとレイアウトの事前学習による文書画像理解

Yiheng Xu; Minghao Li; Lei Cui; Shaohan Huang; Furu Wei; Ming Zhou
LayoutLM: テキストとレイアウトの事前学習による文書画像理解
要約

近年、事前学習技術は様々な自然言語処理(NLP)タスクで成功裏に検証されています。しかし、NLPアプリケーションのための事前学習モデルは広く使用されているにもかかわらず、スキャンされた文書画像の理解において重要な役割を果たすレイアウトやスタイル情報がほとんど無視されています。本論文では、テキストとレイアウト情報の相互作用をスキャンされた文書画像全体で統合的にモデル化する\textbf{LayoutLM}を提案します。これは、実世界の文書画像理解タスク、例えばスキャンされた文書からの情報抽出などに有益です。さらに、当研究では画像特徴量も活用し、単語の視覚的情報をLayoutLMに組み込むことでその性能を向上させています。我々が知る限り、テキストとレイアウトが単一のフレームワーク内で共同して学習されるのはこれが初めてです。これにより、フォーム理解(70.72から79.27)、領収書理解(94.02から95.24)、および文書画像分類(93.07から94.42)などの下流タスクにおいて新しい最先端の結果を達成しています。本研究で使用したコードと事前学習済みのLayoutLMモデルは公開されており、以下のURLからアクセスできます: \url{https://aka.ms/layoutlm}。

LayoutLM: テキストとレイアウトの事前学習による文書画像理解 | 最新論文 | HyperAI超神経