HyperAIHyperAI

Command Palette

Search for a command to run...

テキストライン認識モデルの再考

Daniel Hernandez Diaz Siyang Qin Reeve Ingle Yasuhisa Fujii Alessandro Bissacco

概要

本稿では、テキストライン認識の問題に取り組む。多くの既存手法が、シーンテキストや手書き文書といった特定のドメインに焦点を当てているのに対し、本研究では、入力のソースやモダリティにかかわらず、あらゆる画像からテキストを抽出できる汎用アーキテクチャの開発という、より一般的な問題に注目する。本研究では、2つのデコーダファミリー(Connectionist Temporal Classification: CTC と Transformer)と、3つのエンコーダモジュール(Bidirectional LSTMs、Self-Attention、GRCLs)を組み合わせ、シーンテキストおよび手書きテキストを対象とした広く用いられている公開データセット上で、精度および性能を広範に比較検証した。その結果、これまでの文献でほとんど注目されてこなかった組み合わせ、すなわちSelf-AttentionエンコーダとCTCデコーダの組み合わせが、外部言語モデルを併用し、公開データと内部データの両方を用いて学習させた場合、他のすべてのアーキテクチャに比べて、精度および計算量の点で優れた性能を発揮することが明らかになった。より一般的に用いられるTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理可能であり、汎用的なライン認識において必須の要件を満たしている。また、複数のソースから収集した内部データセットを用いて、現在の公開データセットがライン認識器の精度評価において抱える限界を明らかにした。具体的には、画像の幅やシーケンス長の分布が相対的に狭いため、長文のテキスト変換に適用した場合におけるTransformerアプローチの性能劣化を観察することが困難であることが示された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
テキストライン認識モデルの再考 | 記事 | HyperAI超神経