2ヶ月前

高性能テーブル構造認識用トランスフォーマーには初期の畳み込みが必要である

ShengYun Peng; Seongmin Lee; Xiaojing Wang; Rajarajeswari Balasubramaniyan; Duen Horng Chau

要約

表構造認識（TSR）は、表形式の画像を機械が読み取れる形式に変換することを目指しており、視覚エンコーダーが画像特徴を抽出し、テキストデコーダーが表を表現するトークンを生成します。既存のアプローチでは、視覚エンコーダーには古典的な畳み込みニューラルネットワーク（CNN）バックボーンを使用し、テキストデコーダーにはトランスフォーマーを使用しています。しかし、このハイブリッドなCNN-トランスフォーマーアーキテクチャは複雑な視覚エンコーダーを導入し、全体のモデルパラメータのほぼ半分を占めることで、学習と推論の速度を大幅に低下させるとともに、TSRにおける自己監督学習の可能性を阻害しています。本研究では、表現力を持たせつつも軽量な視覚エンコーダーを開発しました。私たちは、畳み込みステムが古典的なCNNバックボーンと同等の性能を達成できることを見出しましたが、そのモデルは非常に単純です。畳み込みステムは、高性能なTSRにおいて重要な2つの要素である高い受容野（RF）比と長いシーケンス長との間で最適なバランスを実現しています。これにより、表の適切な部分を見ることができると同時に、その後のトランスフォーマーで複雑な表構造を十分なコンテキスト長内で保持することができます。私たちは再現可能なアブレーションスタディを行い、コードをオープンソース化して透明性を高めるとともに、当該領域での革新を促進し、公平な比較を容易にするためにhttps://github.com/poloclub/tsr-convstem で公開しました。表は表現学習において有望なモダリティであるため、これらの取り組みは重要です。