2ヶ月前

多セルデコーダと相互学習による表構造と文字認識

Takaya Kawakatsu
多セルデコーダと相互学習による表構造と文字認識
要約

科学論文や財務報告書などの文書から表の内容を抽出し、大規模言語モデルが処理できる形式に変換することは、知識情報処理における重要な課題である。エンドツーエンドアプローチは、表の構造だけでなくセルの内容も認識するもので、外部の文字認識システムを使用した最先端モデルと同等の性能を達成しており、さらなる改善の可能性がある。さらに、これらのモデルはローカルアテンションを導入することで数百のセルを持つ長い表を認識できるようになった。しかし、これらのモデルはヘッダーからフッターへと一方向にのみ表の構造を認識し、セルの内容認識は各セルごとに独立して行われるため、隣接するセルから有用な情報を取得する機会がない。本稿では、このエンドツーエンドアプローチを改善するためにマルチセルコンテンツデコーダおよび双方向相互学習メカニズムを提案する。2つの大規模データセットでの有効性が示され、実験結果は数百以上のセルを持つ長い表においても最先端モデルと同等の性能を示している。注:「ローカルアテンション」(local attention)、「マルチセルコンテンツデコーダ」(multi-cell content decoder)、「双方向相互学習メカニズム」(bidirectional mutual learning mechanism)などは一般的にはこのような訳が用いられます。ただし、特定の文脈や分野によって異なる場合もありますので、必要に応じて確認してください。

多セルデコーダと相互学習による表構造と文字認識 | 最新論文 | HyperAI超神経