概要

本論文では、マスクされた視覚-言語予測を実行することにより、効果的な文書画像事前学習フレームワークであるStrucTexTv2を提案します。このフレームワークは、テキスト領域レベルの画像マスキングに基づく2つの自己監督型事前学習タスクから構成されています：マスクされた画像モデリングとマスクされた言語モデリングです。提案手法では、テキスト単語のバウンディングボックス座標に従って一部の画像領域をランダムにマスキングします。我々の事前学習タスクの目的は、マスキングされた画像領域のピクセルと対応するマスキングトークンを同時に再構築することです。したがって、通常はマスキングされた画像パッチを予測するマスクされた画像モデリングと比較して、事前学習済みエンコーダーはより多くのテキスト意味論を捉えることができます。文書画像理解におけるマルチモーダルモデルの事前学習方法（画像とテキスト両方のモーダリティに依存する）と比較すると、StrucTexTv2は画像のみの入力をモデル化し、OCR事前処理からの自由度が高いアプリケーションシナリオに対応できます。主流の文書画像理解ベンチマークでの広範な実験結果がStrucTexTv2の有効性を示しています。エンドツーエンドシナリオ下での様々な下流タスク（画像分類、レイアウト分析、表構造認識、文書OCR、情報抽出など）において競争力のあるまたは新規最良性能を達成しています。注：「エンドツーエンド」は「end-to-end」の日本語訳で、「一連のプロセス全体を通じて」といった意味合いを持ちます。また、「バウンディングボックス」は「bounding box」の日本語訳で、「物体や文字列などを囲む最小限の矩形」を指します。

ソースPDF