8ヶ月前

ドキュメント理解

データセット

AIインフラストラクチャ

自然言語処理

コンピュータビジョン

Zilong Wang Yiheng Xu Lei Cui Jingbo Shang Furu Wei

概要

読み取り順検出は、視覚的に豊かな文書（例：領収書やフォーム）の理解の基盤となります。しかし、既存の研究では、大規模なデータセットをアノテーションする労力が大きいため、最先端の深層学習モデルを活用していませんでした。私たちは、WORD文書のXMLメタデータに読み取り順が埋め込まれていることを観察しました。さらに、WORD文書をPDFや画像に変換することが容易であることも確認しています。したがって、自動的な手法により、50万枚の文書画像を対象とし、多様な文書タイプをカバーする読み取り順、テキスト情報、レイアウト情報を含むベンチマークデータセット「ReadingBank」を構築しました。この史上初の大規模データセットは、深層ニューラルネットワークによる読み取り順検出の力を解き放ちます。特に、提案したLayoutReaderはseq2seqモデルを使用して読み取り順予測のためにテキスト情報とレイアウト情報を捕捉します。実験においては、LayoutReaderはほぼ完全な精度で読み取り順検出を行い、オープンソースおよび商用OCRエンジンの結果におけるテキスト行の並び替え性能を大幅に向上させました。本研究で使用したデータセットとモデルは\url{https://aka.ms/layoutreader}から公開されます。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

ドキュメント理解

データセット

AIインフラストラクチャ

自然言語処理

コンピュータビジョン

Zilong Wang Yiheng Xu Lei Cui Jingbo Shang Furu Wei

概要

読み取り順検出は、視覚的に豊かな文書（例：領収書やフォーム）の理解の基盤となります。しかし、既存の研究では、大規模なデータセットをアノテーションする労力が大きいため、最先端の深層学習モデルを活用していませんでした。私たちは、WORD文書のXMLメタデータに読み取り順が埋め込まれていることを観察しました。さらに、WORD文書をPDFや画像に変換することが容易であることも確認しています。したがって、自動的な手法により、50万枚の文書画像を対象とし、多様な文書タイプをカバーする読み取り順、テキスト情報、レイアウト情報を含むベンチマークデータセット「ReadingBank」を構築しました。この史上初の大規模データセットは、深層ニューラルネットワークによる読み取り順検出の力を解き放ちます。特に、提案したLayoutReaderはseq2seqモデルを使用して読み取り順予測のためにテキスト情報とレイアウト情報を捕捉します。実験においては、LayoutReaderはほぼ完全な精度で読み取り順検出を行い、オープンソースおよび商用OCRエンジンの結果におけるテキスト行の並び替え性能を大幅に向上させました。本研究で使用したデータセットとモデルは\url{https://aka.ms/layoutreader}から公開されます。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています