
畳み込みニューラルネットワーク(CNN)は、手書きテキスト認識(HTR)のタスクにおいて有望な成果を示しているが、性能面では依然として再帰型ニューラルネットワーク(RNN)やTransformerベースのモデルに後れを取っている。本論文では、このギャップを埋めるCNNベースのアーキテクチャを提案する。本研究で提唱する「Easter2.0」は、1次元畳み込み層、バッチ正規化、ReLU活性化関数、ドロップアウト、密度型残差接続(Dense Residual Connection)、シーザー・アンド・エクサイト(Squeeze-and-Excitation)モジュールを複数層にわたって構成し、接続主義的時系列分類(Connectionist Temporal Classification, CTC)損失関数を用いる。さらに、Easter2.0アーキテクチャに加えて、HTR/OCRタスクに特有のシンプルかつ効果的なデータ拡張手法「タイリングと破損(Tiling and Corruption, TACO)」を提案する。本研究では、公開されている訓練データのみを用いてIAM手書き文字データベースで最先端の性能を達成した。実験を通じて、TACOによるデータ拡張およびSqueeze-and-Excitationモジュールがテキスト認識精度に与える影響を明らかにした。さらに、Easter2.0が少数サンプル学習(few-shot learning)タスクにも適していることを示し、限られたラベル付きデータで学習させた場合でも、Transformerを含む現在の最先端手法を上回ることを確認した。コードおよびモデルは以下のURLで公開されている:https://github.com/kartikgill/Easter2