テキストライン認識モデルの再考

本稿では、テキストライン認識の問題に取り組む。多くの既存手法が、シーンテキストや手書き文書といった特定のドメインに焦点を当てているのに対し、本研究では、入力のソースやモダリティにかかわらず、あらゆる画像からテキストを抽出できる汎用アーキテクチャの開発という、より一般的な問題に注目する。本研究では、2つのデコーダファミリー(Connectionist Temporal Classification: CTC と Transformer)と、3つのエンコーダモジュール(Bidirectional LSTMs、Self-Attention、GRCLs)を組み合わせ、シーンテキストおよび手書きテキストを対象とした広く用いられている公開データセット上で、精度および性能を広範に比較検証した。その結果、これまでの文献でほとんど注目されてこなかった組み合わせ、すなわちSelf-AttentionエンコーダとCTCデコーダの組み合わせが、外部言語モデルを併用し、公開データと内部データの両方を用いて学習させた場合、他のすべてのアーキテクチャに比べて、精度および計算量の点で優れた性能を発揮することが明らかになった。より一般的に用いられるTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理可能であり、汎用的なライン認識において必須の要件を満たしている。また、複数のソースから収集した内部データセットを用いて、現在の公開データセットがライン認識器の精度評価において抱える限界を明らかにした。具体的には、画像の幅やシーケンス長の分布が相対的に狭いため、長文のテキスト変換に適用した場合におけるTransformerアプローチの性能劣化を観察することが困難であることが示された。