17日前

勾配ベースの学習を文書認識に適用する

{P. Haffner, Y. Bengio, L. Bottou, Y. LeCun}
要約

バックプロパゲーションアルゴリズムで学習された多層ニューラルネットワークは、勾配ベース学習手法の成功例として最も顕著なものである。適切なネットワークアーキテクチャが与えられれば、勾配ベースの学習アルゴリズムを用いて、手書き文字などの高次元パターンを最小限の前処理で分類可能な複雑な決定境界を合成することが可能となる。本論文では、手書き文字認識に用いられたさまざまな手法をレビューし、標準的な手書き数字認識タスク上でそれらを比較する。特に2次元形状の変動性に対処するように設計された畳み込みニューラルネットワーク(CNN)は、他のすべての手法を上回ることを示している。現実の文書認識システムは、フィールド抽出、セグメンテーション、認識、言語モデルなどの複数のモジュールから構成される。本研究では、グラフ変換ネットワーク(Graph Transformer Networks: GTN)と呼ばれる新たな学習枠組みを提案し、これらのマルチモジュールシステムを勾配ベースの手法を用いてグローバルに学習可能とし、全体の性能指標を最小化するようにする。オンライン手書き認識のための2つのシステムを紹介する。実験により、グローバル学習の利点およびGTNの高い柔軟性が実証されている。さらに、銀行小切手の読み取りを目的としたGTNの応用例も提示する。このシステムは、畳み込みニューラルネットワークを用いた文字認識器とグローバル学習技術を組み合わせ、商業用および個人用小切手において記録的な認識精度を達成している。現在、このシステムは商業的に展開されており、1日数百万枚の小切手を処理している。