2ヶ月前
TSRFormer: テーブル構造認識にTransformersを用いた手法
Weihong Lin; Zheng Sun; Chixiang Ma; Mingze Li; Jiawei Wang; Lei Sun; Qiang Huo

要約
新しいテーブル構造認識(TSR)手法、TSRFormerを提案します。この手法は、さまざまなテーブル画像から幾何学的な歪みを持つ複雑なテーブルの構造を堅牢に認識することを目指しています。従来の方法とは異なり、我々はテーブル分離線予測を画像セグメンテーション問題ではなく、ライン回帰問題として定式化し、新たな二段階DETRベースの分離予測手法であるSeparator REgression TRansformer (SepRETR) を提案しました。これは直接テーブル画像から分離線を予測するためのものです。二段階DETRフレームワークが分離線予測タスクに対して効率的かつ効果的に動作するようにするために、以下の2つの改善点を提案します:1) DETRの収束速度が遅い問題を解決するための事前情報強化マッチング戦略;2) 高解像度の畳み込み特徴マップから直接特徴量をサンプリングする新しいクロスアテンションモジュール。これにより、低計算コストで高精度な位置特定が実現されます。分離線予測後には、単純な関係ネットワークに基づくセル統合モジュールを使用して、結合セルを復元します。これらの新技術により、TSRFormerはSciTSR、PubTabNetおよびWTWなどのいくつかのベンチマークデータセットで最先端の性能を達成しています。さらに、我々はより困難な自社実世界データセットにおいても、複雑な構造を持つテーブルや枠なしセル、大きな空白領域、空または結合されたセルだけでなく歪んだ形状や曲線形状に対する当手法の堅牢性を検証しました。