2ヶ月前
DAN: 手書き文書認識のためのセグメンテーションフリー文書注意ネットワーク
Coquenet, Denis ; Chatelain, Clément ; Paquet, Thierry

要約
制約のない手書き文字認識は、難易度の高いコンピュータビジョンの課題である。従来は、行セグメンテーションとその後のテキスト行認識を組み合わせた2段階アプローチで処理されてきた。本稿では初めて、手書き文書認識のためのセグメンテーションフリーのエンドツーエンドアーキテクチャを提案する:ドキュメント注意ネットワーク(Document Attention Network)。このモデルは、テキスト認識に加えて、XML形式に類似した開始タグと終了タグを使用してテキスト部分をラベリングするように訓練される。モデルは特徴量抽出用のFCNエンコーダと、繰り返しトークンごとの予測プロセスを行うトランスフォーマーデコーダ層のスタックから構成されている。入力として全体的なテキスト文書を取り扱い、文字列と論理的なレイアウトトークンを順次出力する。既存のセグメンテーションベースのアプローチとは異なり、このモデルは任意のセグメンテーションラベルを使用せずに訓練される。READ 2016データセットにおいてページレベルおよび両ページレベルで競合他社に匹敵する結果を達成しており、それぞれCERが3.43%および3.70%である。また、RIMES 2009データセットにおいてもページレベルでの結果を提供しており、CERが4.54%となっている。当研究に関連するすべてのソースコードおよび事前学習済みモデルの重みは、以下のURLで公開している:https://github.com/FactoDeepLearning/DAN。