2ヶ月前

多様な文書画像からの堅牢な表検出と構造認識

Chixiang Ma; Weihong Lin; Lei Sun; Qiang Huo
多様な文書画像からの堅牢な表検出と構造認識
要約

新しいテーブル検出および構造認識手法であるRobusTabNetを紹介します。この手法は、異種の文書画像からテーブルの境界を検出し、各テーブルのセル構造を再構築することを目指しています。テーブル検出に関しては、Faster R-CNNのためのより高品質なテーブル提案を生成するために、新しい領域提案ネットワークとしてCornerNetを使用することを提案します。これにより、Faster R-CNNのテーブル検出における位置特定精度が大幅に向上しました。その結果、当社のテーブル検出手法は、cTDaR TrackA、PubLayNet、IIIT-AR-13Kという3つの公開されたテーブル検出ベンチマークで最先端の性能を達成しており、軽量なResNet-18バックボーンネットワークのみを使用しています。さらに、新しい分割統合ベースのテーブル構造認識手法も提案します。この手法では、各検出されたテーブルをセルのグリッドに分割するための新規空間CNNに基づく分離線予測モジュールと、スパンセルを回復するためのグリッドCNNに基づくセルマージングモジュールが導入されています。空間CNNモジュールは全体的なテーブル画像において文脈情報を効果的に伝播させるため、当社のテーブル構造認識器は大規模な空白スペースや幾何学的に歪んだ(曲がった)テーブルでも堅牢に認識することができます。これらの2つの技術のおかげで、当社のテーブル構造認識手法はSciTSR、PubTabNet、cTDaR TrackB2-Modernという3つの公開ベンチマークで最先端の性能を達成しています。また、より困難な自社データセットにおいても複雑な構造を持つテーブルや大規模な空白スペースのあるテーブル、幾何学的に歪んだまたは曲がった形状を持つテーブルに対する当社手法の優位性を示すことができました。

多様な文書画像からの堅牢な表検出と構造認識 | 最新論文 | HyperAI超神経