2ヶ月前

分割、埋め込み、統合:高精度な表構造認識器

Zhenrong Zhang; Jianshu Zhang; Jun Du
分割、埋め込み、統合:高精度な表構造認識器
要約

表構造認識は、機械が表を理解するための重要な部分です。その主な課題は、表の内部構造を認識することです。しかし、表の構造とスタイルの複雑さと多様性のために、特に複雑な表の場合には、タブ形式のデータを機械が容易に理解できる構造化フォーマットに解析することは非常に困難です。本論文では、Split, Embed and Merge (SEM) という高精度な表構造認識器を紹介します。当モデルは表画像を入力として受け取り、単純な表でも複雑な表でもその構造を正確に認識することができます。SEM は主に3つの部分から構成されています:スプリッター(splitter)、エンベッダー(embedder)、マージャー(merger)。第1段階では、スプリッターを使用してテーブル行(列)セパレータの潜在的な領域を予測し、テーブルの細かいグリッド構造を得ます。第2段階では、テーブル内のテキスト情報を十分に考慮し、視覚と言語モダリティからの各テーブルグリッドの出力特徴量を融合します。さらに、追加的な意味特徴量を加えることで実験においてより高い精度を達成しました。最後に、これらの基本的なテーブルグリッドのマージング処理を自己回帰的方式で行います。対応するマージング結果はアテンションメカニズムを通じて学習されます。当方の実験では、SEM は SciTSR データセット上で平均 F1値97.11% を達成し、他の方法よりも大幅に優れた性能を示しました。また、ICDAR 2021 科学文献解析コンペティション Task-B において複雑な表部門で1位、全表部門で3位となりました。他にも公開されているデータセットでの広範な実験により、当モデルが最先端であることが証明されています。

分割、埋め込み、統合:高精度な表構造認識器 | 最新論文 | HyperAI超神経