
要約
文書画像から情報を抽出するための第一段階として、表、図、式などのページ要素やオブジェクトの局所化が挙げられる。本研究では、文書内に存在する表を検出するための新たなエンドツーエンド学習可能な深層ネットワーク(CDeC-Net)を提案する。本ネットワークは、可変スケールの表を高精度に検出可能なマルチステージ構造を備えたMask R-CNNの拡張であり、デフォーマブル畳み込みを用いた二重バックボーンを採用している。我々は、ICDAR-2013、ICDAR-2017、ICDAR-2019、UNLV、Marmot、PubLayNet、TableBankのすべての公開ベンチマークデータセットに対して、広範な実験を通じてCDeC-Netの実証的評価を行った。本手法には以下の三つの重要な特徴がある:(i)一つの訓練済みモデルであるCDeC-Net‡が、すべての代表的なベンチマークデータセットで良好な性能を発揮する;(ii)IoU閾値を複数、特に高い閾値においても優れた性能を報告している;(iii)各ベンチマークにおいて最近の論文と同一の評価プロトコルに従い、一貫して優れた定量的性能を示している。本研究のコードおよびモデルは、結果の再現性を促進するため、公開予定である。