HyperAIHyperAI

Command Palette

Search for a command to run...

PubLayNet: 文書レイアウト分析のための最大規模のデータセット

Xu Zhong; Jianbin Tang; Antonio Jimeno Yepes

概要

非構造化デジタル文書のレイアウトを認識することは、これらの文書を構造化された機械読み取り可能な形式に解析して下流アプリケーションで利用する上で重要なステップです。コンピュータビジョン向けに開発された深層ニューラルネットワークは、文書画像のレイアウト分析において効果的な手法であることが証明されています。しかし、現在公開されている文書レイアウトデータセットは、確立されたコンピュータビジョンデータセットよりも数桁小さいのが現状です。モデルは、伝統的なコンピュータビジョンデータセットで事前学習されたベースモデルから転移学習によって訓練される必要があります。本論文では、PubMed Centralで公開されている100万件以上のPDF記事のXML表現とコンテンツを自動的にマッチングすることで、文書レイアウト分析用のPubLayNetデータセットを開発しました。このデータセットの規模は確立されたコンピュータビジョンデータセットと匹敵し、36万件以上の文書画像を含んでおり、典型的な文書レイアウト要素が注釈されています。実験結果は、PubLayNetで訓練された深層ニューラルネットワークが科学論文のレイアウトを正確に認識できることを示しています。また、異なるドキュメント領域での転移学習におけるより効果的なベースモデルとしても機能することが確認されました。我々はこのデータセット(https://github.com/ibm-aur-nlp/PubLayNet)を公開し、より高度な文書レイアウト分析モデルの開発と評価を支援することを目指しています


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています