2ヶ月前
LGPMA: 局所および全局ピラミッドマスクアライメントを用いた複雑な表構造の認識
Liang Qiao; Zaisheng Li; Zhanzhan Cheng; Peng Zhang; Shiliang Pu; Yi Niu; Wenqi Ren; Wenming Tan; Fei Wu

要約
表構造認識は、様々な構造と複雑なセルの結合関係により困難な課題となっています。従来の手法では、異なる粒度(行/列、テキスト領域)の要素から問題を扱っていましたが、これによってヒューリスティックルールの損失や空セル分割の無視といった問題が生じていました。表構造の特性に基づいて、私たちはテキスト領域のアライメントされたバウンディングボックスを取得することで、異なるセル全体に関連する範囲を効果的に維持できることがわかりました。しかし、視覚的な曖昧さのために、アライメントされたバウンディングボックスは正確に予測するのが難しいです。本論文では、提案された局所特徴量と全体特徴量から得られる視覚情報を十分に活用して、より信頼性の高いアライメントされたバウンディングボックスを取得することを目指しています。具体的には、局所および全体特徴マップでソフトピラミッドマスク学習メカニズムを採用した「局所および全体ピラミッドマスクアライメント」フレームワークを提案します。これにより、バウンディングボックスの予測境界が元の提案の制限を超えることが可能になります。その後、ピラミッドマスク再評価モジュールを統合し、局所情報と全体情報を折衷し、予測境界を精緻化します。最後に、最終的な構造を得るための堅牢な表構造復元パイプラインを提案します。このパイプラインでは、空セルの位置決めと分割という問題も効果的に解決しています。実験結果は、提案手法がいくつかの公開ベンチマークで競争力のある性能を達成し、さらには新たな最先端性能を示していることを示しています。