2ヶ月前
LayoutReader: テキストとレイアウトの事前学習による読み順検出
Zilong Wang; Yiheng Xu; Lei Cui; Jingbo Shang; Furu Wei

要約
読み取り順検出は、視覚的に豊かな文書(例:領収書やフォーム)の理解の基盤となります。しかし、既存の研究では、大規模なデータセットをアノテーションする労力が大きいため、最先端の深層学習モデルを活用していませんでした。私たちは、WORD文書のXMLメタデータに読み取り順が埋め込まれていることを観察しました。さらに、WORD文書をPDFや画像に変換することが容易であることも確認しています。したがって、自動的な手法により、50万枚の文書画像を対象とし、多様な文書タイプをカバーする読み取り順、テキスト情報、レイアウト情報を含むベンチマークデータセット「ReadingBank」を構築しました。この史上初の大規模データセットは、深層ニューラルネットワークによる読み取り順検出の力を解き放ちます。特に、提案したLayoutReaderはseq2seqモデルを使用して読み取り順予測のためにテキスト情報とレイアウト情報を捕捉します。実験においては、LayoutReaderはほぼ完全な精度で読み取り順検出を行い、オープンソースおよび商用OCRエンジンの結果におけるテキスト行の並び替え性能を大幅に向上させました。本研究で使用したデータセットとモデルは\url{https://aka.ms/layoutreader}から公開されます。