HyperAIHyperAI

Command Palette

Search for a command to run...

StrucTexTv2: 文書画像の事前学習のためのマスクされた視覚的-言語的予測

Yuechen Yu†, Yulin Li†, Chengquan Zhang†, Xiaoqiang Zhang, Zengyuan Guo, Xiameng Qin, Kun Yao, Junyu Han, Errui Ding, Jingdong Wang

概要

本論文では、マスクされた視覚-言語予測を実行することにより、効果的な文書画像事前学習フレームワークであるStrucTexTv2を提案します。このフレームワークは、テキスト領域レベルの画像マスキングに基づく2つの自己監督型事前学習タスクから構成されています:マスクされた画像モデリングとマスクされた言語モデリングです。提案手法では、テキスト単語のバウンディングボックス座標に従って一部の画像領域をランダムにマスキングします。我々の事前学習タスクの目的は、マスキングされた画像領域のピクセルと対応するマスキングトークンを同時に再構築することです。したがって、通常はマスキングされた画像パッチを予測するマスクされた画像モデリングと比較して、事前学習済みエンコーダーはより多くのテキスト意味論を捉えることができます。文書画像理解におけるマルチモーダルモデルの事前学習方法(画像とテキスト両方のモーダリティに依存する)と比較すると、StrucTexTv2は画像のみの入力をモデル化し、OCR事前処理からの自由度が高いアプリケーションシナリオに対応できます。主流の文書画像理解ベンチマークでの広範な実験結果がStrucTexTv2の有効性を示しています。エンドツーエンドシナリオ下での様々な下流タスク(画像分類、レイアウト分析、表構造認識、文書OCR、情報抽出など)において競争力のあるまたは新規最良性能を達成しています。注:「エンドツーエンド」は「end-to-end」の日本語訳で、「一連のプロセス全体を通じて」といった意味合いを持ちます。また、「バウンディングボックス」は「bounding box」の日本語訳で、「物体や文字列などを囲む最小限の矩形」を指します。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
StrucTexTv2: 文書画像の事前学習のためのマスクされた視覚的-言語的予測 | 記事 | HyperAI超神経