2ヶ月前

パディングなしで:効率的なニューラルネットワークによる手書き認識

Gideon Maillette de Buy Wenniger; Lambert Schomaker; Andy Way
パディングなしで:効率的なニューラルネットワークによる手書き認識
要約

ニューラルハンドライティング認識(NHR)は、多次元長期短期記憶(MDLSTM)再帰型ニューラルネットワークなどの深層学習モデルを使用して手書きテキストを認識する技術である。MDLSTM層を持つモデルは、手書きテキスト認識タスクにおいて最先端の結果を達成している。多方向のMDLSTM層は、すべての方向で完全なコンテクストを捉える能力に優れているが、この強みは並列化の可能性を制限し、計算コストが高くなるという課題も抱えている。本研究では、効率的なMDLSTMベースのNHRモデルを作成する方法を開発し、特にパディングによって生じる計算の無駄を排除することを目指した手法について述べる。この提案手法は「サンプルパッキング」と呼ばれ、無駄なパディング付きサンプルの積み重ねを2次元グリッド上の効率的なタイリングに置き換えるものである。単語ベースのNHRでは、バッチごとに最小限のパディングを行う既存の効率的な基準と比較して6.6倍の速度向上が得られた。行ベースのNHRでは改善幅は控えめだが、依然として有意義である。サンプルパッキングに加えて、以下の手法を提案する:1) PyTorchなどを含む動的グラフ定義フレームワーク向けにグループ化を使用した畳み込みによる並列化最適化技術、2) 変数長サンプルバッチに対するGPU間での並列化方法。これらの技術はすべて、我々自身がPyTorchで再実装したMDLSTMベースのNHRモデル上で徹底的にテストされた。IAMデータセットにおける詳細な評価により、我々のモデルが従来の最先端モデルと同様の性能を示すことが確認された。我々が開発した効率的なNHRモデルと再利用可能な技術は、深層学習における変数長入力という一般的なシナリオに対して相対的に効率的なモデルを実現する道筋を提供している。注:「example-packing」は「サンプルパッキング」と訳しました。「convolutions with grouping」は「グループ化を使用した畳み込み」と訳しました。「variable-length example batches」は「変数長サンプルバッチ」と訳しました。これらは専門用語であり、一般的な日本語表現とは異なる場合がありますが、文脈に合わせて適切な訳語を選択しました。

パディングなしで:効率的なニューラルネットワークによる手書き認識 | 最新論文 | HyperAI超神経