2ヶ月前

画像に基づく表認識:データ、モデル、および評価

Xu Zhong; Elaheh ShafieiBavani; Antonio Jimeno Yepes
画像に基づく表認識:データ、モデル、および評価
要約

ドキュメント内の特定のトピックに関連する重要な情報は、読者が情報を検索や比較しやすくするために、しばしば表形式で整理されます。これは自然言語では提供するのが難しい場合があります。しかし、非構造化デジタルドキュメント(例:ポータブルドキュメントフォーマット(PDF)や画像)内の表データは、その構造とスタイルの複雑さと多様性により、構造化された機械読み取り可能な形式に解析することが困難です。深層学習を用いた画像ベースの表認識を促進するため、私たちは最大規模の公開テーブル認識データセットであるPubTabNet (https://github.com/ibm-aur-nlp/PubTabNet) を開発しました。このデータセットには、対応する構造化HTML表現とともに568,000枚の表画像が含まれています。PubTabNetは、PubMed Central Open Access Subset (PMCOA) の科学論文のXML表現とPDF表現をマッチングすることで自動生成されました。さらに、私たちは新しい注目ベースのエンコーダー-デュアルデコーダー (EDD) アーキテクチャを提案します。このアーキテクチャは表の画像をHTMLコードに変換します。モデルにはテーブル構造を再構築し、セルデコーダーがセル内容を認識するのに役立つ構造デコーダーが含まれています。また、新しいTree-Edit-Distance-based Similarity (TEDS) 評価指標も提案しています。これは既存の評価指標よりも多段階セル位置ずれやOCRエラーをより適切に捉えることができます。実験結果は、EDDモデルが画像表現のみを使用して複雑な表を正確に認識できることを示しており、最新技術よりも絶対TEDSスコアで9.7%上回っています。

画像に基づく表認識:データ、モデル、および評価 | 最新論文 | HyperAI超神経