HyperAIHyperAI

Command Palette

Search for a command to run...

多様な文書画像からの堅牢な表検出と構造認識

Chixiang Ma Weihong Lin Lei Sun Qiang Huo

概要

新しいテーブル検出および構造認識手法であるRobusTabNetを紹介します。この手法は、異種の文書画像からテーブルの境界を検出し、各テーブルのセル構造を再構築することを目指しています。テーブル検出に関しては、Faster R-CNNのためのより高品質なテーブル提案を生成するために、新しい領域提案ネットワークとしてCornerNetを使用することを提案します。これにより、Faster R-CNNのテーブル検出における位置特定精度が大幅に向上しました。その結果、当社のテーブル検出手法は、cTDaR TrackA、PubLayNet、IIIT-AR-13Kという3つの公開されたテーブル検出ベンチマークで最先端の性能を達成しており、軽量なResNet-18バックボーンネットワークのみを使用しています。さらに、新しい分割統合ベースのテーブル構造認識手法も提案します。この手法では、各検出されたテーブルをセルのグリッドに分割するための新規空間CNNに基づく分離線予測モジュールと、スパンセルを回復するためのグリッドCNNに基づくセルマージングモジュールが導入されています。空間CNNモジュールは全体的なテーブル画像において文脈情報を効果的に伝播させるため、当社のテーブル構造認識器は大規模な空白スペースや幾何学的に歪んだ(曲がった)テーブルでも堅牢に認識することができます。これらの2つの技術のおかげで、当社のテーブル構造認識手法はSciTSR、PubTabNet、cTDaR TrackB2-Modernという3つの公開ベンチマークで最先端の性能を達成しています。また、より困難な自社データセットにおいても複雑な構造を持つテーブルや大規模な空白スペースのあるテーブル、幾何学的に歪んだまたは曲がった形状を持つテーブルに対する当社手法の優位性を示すことができました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています