HyperAIHyperAI

Command Palette

Search for a command to run...

高性能テーブル構造認識用トランスフォーマーには初期の畳み込みが必要である

ShengYun Peng¹ Seongmin Lee¹ Xiaojing Wang² Rajarajeswari Balasubramaniyan² Duen Horng Chau¹

概要

表構造認識(TSR)は、表形式の画像を機械が読み取れる形式に変換することを目指しており、視覚エンコーダーが画像特徴を抽出し、テキストデコーダーが表を表現するトークンを生成します。既存のアプローチでは、視覚エンコーダーには古典的な畳み込みニューラルネットワーク(CNN)バックボーンを使用し、テキストデコーダーにはトランスフォーマーを使用しています。しかし、このハイブリッドなCNN-トランスフォーマーアーキテクチャは複雑な視覚エンコーダーを導入し、全体のモデルパラメータのほぼ半分を占めることで、学習と推論の速度を大幅に低下させるとともに、TSRにおける自己監督学習の可能性を阻害しています。本研究では、表現力を持たせつつも軽量な視覚エンコーダーを開発しました。私たちは、畳み込みステムが古典的なCNNバックボーンと同等の性能を達成できることを見出しましたが、そのモデルは非常に単純です。畳み込みステムは、高性能なTSRにおいて重要な2つの要素である高い受容野(RF)比と長いシーケンス長との間で最適なバランスを実現しています。これにより、表の適切な部分を見ることができると同時に、その後のトランスフォーマーで複雑な表構造を十分なコンテキスト長内で保持することができます。私たちは再現可能なアブレーションスタディを行い、コードをオープンソース化して透明性を高めるとともに、当該領域での革新を促進し、公平な比較を容易にするためにhttps://github.com/poloclub/tsr-convstem で公開しました。表は表現学習において有望なモダリティであるため、これらの取り組みは重要です。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
高性能テーブル構造認識用トランスフォーマーには初期の畳み込みが必要である | 記事 | HyperAI超神経