17日前
野外におけるテーブル検出:新たな多様性を持つテーブル検出データセットおよび手法
Mrinal Haloi, Shashank Shekhar, Nikhil Fande, Siddhant Swaroop Dash, Sanjay G

要約
近年のテーブル検出におけるディープラーニングアプローチは、優れた性能を達成し、ドキュメントレイアウトの識別において有効であることが実証されている。しかしながら、現在利用可能なテーブル検出ベンチマークには、サンプルの多様性の不足、単純なテーブル構造、学習データの不足、およびサンプル品質の問題といった多くの制約が存在する。本論文では、多様なソースから収集された、7,000件以上のサンプルを含み、広範なテーブル構造をカバーする大規模で多様なテーブル検出データセットを紹介する。さらに、ドキュメント内のテーブル構造を検出するための畳み込みニューラルネットワーク(CNN)ベースのベースライン手法の結果も提示する。実験結果から、従来のコンピュータビジョン手法に比べ、畳み込み型ディープラーニング手法の優位性が明らかになった。本研究で提示する多様なテーブル検出データセットの公開により、コミュニティはドキュメントレイアウトの理解や表形式データ処理のための高スループットなディープラーニング手法の開発を推進できるようになる。データセットは以下のリンクから入手可能である:1. https://www.kaggle.com/datasets/mrinalim/stdw-dataset2. https://huggingface.co/datasets/n3011/STDW