15日前

あなたが読んでいる内容に注意を向けること:非再帰型手書き文字行認識

Lei Kang, Pau Riba, Marçal Rusiñol, Alicia Fornés, Mauricio Villegas
あなたが読んでいる内容に注意を向けること:非再帰型手書き文字行認識
要約

手書き文字認識における再帰型ニューラルネットワーク(RNN)の登場は、異なる筆記スタイルに見られる大きな変動性にもかかわらず、驚異的な認識精度を達成するという重要な里程碑を意味した。順序付きアーキテクチャは、文字列の内在的な時系列的性質に加え、文字や単語の系列に対する確率分布を学習できる点から、テキストラインのモデリングに極めて適している。しかし、このような再帰的アプローチを用いる場合、訓練段階においては、順次処理パイプラインが並列化を妨げるというコストが伴う。本研究では、Transformerモデルを活用した非再帰的アプローチにより、手書きテキストを認識する手法を提案する。本手法はあらゆる再帰構造を回避する新しいアプローチを採用しており、視覚的およびテキスト的段階の両方でマルチヘッド自己注意(multi-head self-attention)層を用いることで、文字認識の実現と、解読対象となる文字系列における言語依存性の学習を同時に可能にしている。本モデルは事前に定義された語彙に制約されず、訓練語彙に存在しない未知語(out-of-vocabulary words)の認識も可能である。従来の手法を大きく上回り、少データ学習(few-shot learning)環境下でも十分な認識精度を達成できることを実証した。

あなたが読んでいる内容に注意を向けること:非再帰型手書き文字行認識 | 最新論文 | HyperAI超神経