8ヶ月前

ドキュメント理解

マルチタスク学習

アプローチ／フレームワーク

自然言語処理

Junlong Li Yiheng Xu Tengchao Lv Lei Cui Cha Zhang Furu Wei

概要

画像変換器（Image Transformer）は最近、自然画像の理解において、監督学習（ViT, DeiTなど）や自己監督学習（BEiT, MAEなど）の事前学習技術を用いて著しい進歩を遂げています。本論文では、大規模なラベルなしテキスト画像を使用してドキュメントAIタスクに不可欠な自己監督学習型の文書画像変換器モデル（\textbf{DiT}：\textbf{D}ocument \textbf{I}mage \textbf{T}ransformer）を提案します。これは、人間がラベル付けしたドキュメント画像が不足しているため、監督学習の対応物が存在しない状況下で特に重要です。私たちはDiTをバックボーンネットワークとして、文書画像分類、文書レイアウト解析、表検出およびOCR用のテキスト検出などのさまざまな視覚ベースのドキュメントAIタスクに活用しました。実験結果は、自己監督学習型のDiTモデルがこれらの下流タスクで新しい最先端の結果を達成していることを示しています。例えば、文書画像分類（91.11 $\rightarrow$ 92.69）、文書レイアウト解析（91.0 $\rightarrow$ 94.9）、表検出（94.23 $\rightarrow$ 96.55）、OCR用のテキスト検出（93.07 $\rightarrow$ 94.29）です。コードと事前学習済みモデルは公開されており、以下のURLからアクセスできます: \url{https://aka.ms/msdit}。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

ドキュメント理解

マルチタスク学習

アプローチ／フレームワーク

自然言語処理

Junlong Li Yiheng Xu Tengchao Lv Lei Cui Cha Zhang Furu Wei

概要

画像変換器（Image Transformer）は最近、自然画像の理解において、監督学習（ViT, DeiTなど）や自己監督学習（BEiT, MAEなど）の事前学習技術を用いて著しい進歩を遂げています。本論文では、大規模なラベルなしテキスト画像を使用してドキュメントAIタスクに不可欠な自己監督学習型の文書画像変換器モデル（\textbf{DiT}：\textbf{D}ocument \textbf{I}mage \textbf{T}ransformer）を提案します。これは、人間がラベル付けしたドキュメント画像が不足しているため、監督学習の対応物が存在しない状況下で特に重要です。私たちはDiTをバックボーンネットワークとして、文書画像分類、文書レイアウト解析、表検出およびOCR用のテキスト検出などのさまざまな視覚ベースのドキュメントAIタスクに活用しました。実験結果は、自己監督学習型のDiTモデルがこれらの下流タスクで新しい最先端の結果を達成していることを示しています。例えば、文書画像分類（91.11 $\rightarrow$ 92.69）、文書レイアウト解析（91.0 $\rightarrow$ 94.9）、表検出（94.23 $\rightarrow$ 96.55）、OCR用のテキスト検出（93.07 $\rightarrow$ 94.29）です。コードと事前学習済みモデルは公開されており、以下のURLからアクセスできます: \url{https://aka.ms/msdit}。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています