2ヶ月前
CascadeTabNet: 画像ベースの文書からのテーブル検出と構造認識のエンドツーエンドアプローチ
Devashish Prasad; Ayan Gadpal; Kshitij Kapadni; Manish Visave; Kavita Sultanpure

要約
ドキュメント画像中の表データの解釈に向けた自動表認識手法は、主に表検出と表構造認識という2つの問題を解決することを含む。従来の研究では、これらの問題を独立して2つの異なるアプローチで解決していた。最近の研究では、深層学習ベースのソリューションを使用しつつ、エンドツーエンドのソリューション設計も試みられている。本論文では、単一の畳み込みニューラルネットワーク(CNN)モデルを使用して、表検出と構造認識の両方の問題を解決する改善された深層学習ベースのエンドツーエンドアプローチを提案する。我々はCascadeTabNet:カスケードマスク領域ベースCNN高解像度ネットワーク(Cascade mask R-CNN HRNet)に基づくモデルを提案し、このモデルは表の領域を検出し、同時にその領域から構造的なセルを認識することができる。我々はICDAR 2013, ICDAR 2019およびTableBank公開データセット上で結果を評価した。ICDAR 2019競技後の結果において表検出で3位となり、ICDAR 2013およびTableBankデータセットでは最高精度の結果を得た。さらに、ICDAR 2019表構造認識データセットでも最高精度の結果を得ている。また、効果的な転移学習と画像増強技術によってCNNが非常に正確な表検出結果を得られることが示されている。コードとデータセットは以下のURLで公開されている: https://github.com/DevashishPrasad/CascadeTabNet