2ヶ月前
TableNet: スキャンされた文書画像からの端から端までのテーブル検出と表データ抽出のための深層学習モデル
Shubham Paliwal; Vishwanath D; Rohit Rahul; Monika Sharma; Lovekesh Vig

要約
携帯電話やスキャナーを使用して書類を撮影し、アップロードする機会が増えるにつれて、小売レシート、保険請求書、金融インボイスなどの非構造化ドキュメント画像に含まれる情報を抽出する必要性が高まっています。この目的の大きな障壁は、これらの画像がしばしば表形式の情報を持っていることであり、表サブ画像からデータを抽出することは一連の独自の課題を呈しています。これは、画像内の表領域を正確に検出することと、検出された表の行と列から情報を検出して抽出することを含みます。表検出については一定の進展が見られていますが、表の中身を抽出することは依然として課題であり、これはより詳細な表構造(行と列)認識を必要とするためです。従来の手法では、表検出と構造認識の問題を独立して2つの異なるモデルで解決しようと試みてきました。本論文では、TableNet:表検出と構造認識の両方を行う新しいエンドツーエンド深層学習モデルを提案します。このモデルは、表検出と表構造認識という二つのタスク間の相互依存関係を利用して、表領域と列領域をセグメンテーションします。その後、特定された表サブ領域から意味規則に基づいて行を抽出します。提案したモデルおよび抽出手法は、公開されているICDAR 2013データセットとMarmot Tableデータセットで評価され、最先端の結果を得ました。さらに、追加的な意味特徴量を与えることでモデル性能が向上することを示し、またモデルがデータセット間での転移学習能力を持つことを実証しました。本論文のもう一つの貢献は、現在は表検出用アノテーションのみであるMarmotデータに対して追加的な表構造アノテーションを提供することです。