2ヶ月前
TRUST: 分割ベースのトランスフォーマーを使用した高精度かつエンドツーエンドのテーブル構造認識器
Zengyuan Guo; Yuechen Yu; Pengyuan Lv; Chengquan Zhang; Haojie Li; Zhihui Wang; Kun Yao; Jingtuo Liu; Jingdong Wang

要約
表構造認識は、文書画像解析分野において重要な部分を占めています。その難しさは、各セルの物理的な座標と論理的なインデックスを同時に解析する必要があることにあります。しかし、既存の方法では、特にテーブルの分割線がぼやけているか傾いている場合、これらの目標を達成することが困難です。本論文では、正確かつエンドツーエンドのトランスフォーマーに基づく表構造認識手法(TRUST)を提案します。トランスフォーマーは、その全体的な計算能力、完璧な記憶力、並列計算能力により、表構造認識に適しています。新規のトランスフォーマーに基づくクエリベースの分割モジュールと頂点ベースのマージングモジュールを導入することで、表構造認識問題は多方向テーブル行/列分割とテーブルグリッドマージングという2つの結合最適化サブタスクに分解されます。クエリベースの分割モジュールは、トランスフォーマーネットワークを通じて長距離依存関係から強力なコンテキスト情報を学習し、多方向テーブル行/列セパレーターを正確に予測し、それに応じて表の基本グリッドを得ることができます。頂点ベースのマージングモジュールは、隣接する基本グリッド間の局所的なコンテキスト情報を集約することができ、同じスパンニングセルに属する基本グリッドを正確にマージすることができます。私たちはPubTabNetやSynthTableなどのいくつかの人気ベンチマークで実験を行い、提案手法が新たな最先端結果を達成しました。特にTRUSTはPubTabNet上で10 FPSで動作し、以前の手法を大幅に上回っています。