HyperAIHyperAI

Command Palette

Search for a command to run...

DiT: 文書画像トランスフォーマーの自己監督事前学習

Junlong Li Yiheng Xu Tengchao Lv Lei Cui Cha Zhang Furu Wei

概要

画像変換器(Image Transformer)は最近、自然画像の理解において、監督学習(ViT, DeiTなど)や自己監督学習(BEiT, MAEなど)の事前学習技術を用いて著しい進歩を遂げています。本論文では、大規模なラベルなしテキスト画像を使用してドキュメントAIタスクに不可欠な自己監督学習型の文書画像変換器モデル(\textbf{DiT}:\textbf{D}ocument \textbf{I}mage \textbf{T}ransformer)を提案します。これは、人間がラベル付けしたドキュメント画像が不足しているため、監督学習の対応物が存在しない状況下で特に重要です。私たちはDiTをバックボーンネットワークとして、文書画像分類、文書レイアウト解析、表検出およびOCR用のテキスト検出などのさまざまな視覚ベースのドキュメントAIタスクに活用しました。実験結果は、自己監督学習型のDiTモデルがこれらの下流タスクで新しい最先端の結果を達成していることを示しています。例えば、文書画像分類(91.11 \rightarrow 92.69)、文書レイアウト解析(91.0 \rightarrow 94.9)、表検出(94.23 \rightarrow 96.55)、OCR用のテキスト検出(93.07 \rightarrow 94.29)です。コードと事前学習済みモデルは公開されており、以下のURLからアクセスできます: \url{https://aka.ms/msdit}


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています