HyperAIHyperAI

Command Palette

Search for a command to run...

DAN: 手書き文書認識のためのセグメンテーションフリー文書注意ネットワーク

Denis Coquenet Clément Chatelain Thierry Paquet

概要

制約のない手書き文字認識は、難易度の高いコンピュータビジョンの課題である。従来は、行セグメンテーションとその後のテキスト行認識を組み合わせた2段階アプローチで処理されてきた。本稿では初めて、手書き文書認識のためのセグメンテーションフリーのエンドツーエンドアーキテクチャを提案する:ドキュメント注意ネットワーク(Document Attention Network)。このモデルは、テキスト認識に加えて、XML形式に類似した開始タグと終了タグを使用してテキスト部分をラベリングするように訓練される。モデルは特徴量抽出用のFCNエンコーダと、繰り返しトークンごとの予測プロセスを行うトランスフォーマーデコーダ層のスタックから構成されている。入力として全体的なテキスト文書を取り扱い、文字列と論理的なレイアウトトークンを順次出力する。既存のセグメンテーションベースのアプローチとは異なり、このモデルは任意のセグメンテーションラベルを使用せずに訓練される。READ 2016データセットにおいてページレベルおよび両ページレベルで競合他社に匹敵する結果を達成しており、それぞれCERが3.43%および3.70%である。また、RIMES 2009データセットにおいてもページレベルでの結果を提供しており、CERが4.54%となっている。当研究に関連するすべてのソースコードおよび事前学習済みモデルの重みは、以下のURLで公開している:https://github.com/FactoDeepLearning/DAN


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています