2ヶ月前

深層畳み込みニューラルネットワークを用いたストリートビュー画像からの複数桁数字認識

Ian J. Goodfellow; Yaroslav Bulatov; Julian Ibarz; Sacha Arnoud; Vinay Shet
深層畳み込みニューラルネットワークを用いたストリートビュー画像からの複数桁数字認識
要約

制約のない自然な写真から任意の複数文字のテキストを認識することは難しい問題です。本論文では、この分野における同様に難しい部分問題、すなわちストリートビュー画像から任意の複数桁の数字を認識する問題を取り扱います。従来のアプローチは、この問題を解決するために通常、位置特定、セグメンテーション、認識の各ステップを分けて行います。本論文では、これらの3つのステップを統合する新しいアプローチを提案します。これは、深層畳み込みニューラルネットワーク(DCNN)を使用し、直接画像ピクセル上で動作させることで実現されます。私たちは高品質な画像に対して大規模かつ分散型のニューラルネットワークを訓練するために、Deep Neural Networks (DNN) の分散実装であるDistBeliefを使用しました。このアプローチの性能は、畳み込みネットワークの深さとともに向上し、最も深い11層の隠れ層を持つアーキテクチャで最高性能が得られました。私たちは公開されているSVHNデータセットでこのアプローチを評価し、完全な住所番号を認識する精度が96%以上であることを確認しました。また、桁ごとの認識タスクにおいても最先端技術を超える97.84%の精度を達成しました。さらに、何千万もの住所番号注釈が含まれるストリートビュー画像から生成されたより困難なデータセットでも評価を行い、90%以上の精度を得ました。提案システムがより広範なテキスト認識タスクにも適用可能かどうかを探るため、reCAPTCHAからの合成歪んだテキストにも適用しました。reCAPTCHAは人間とボットを区別するために歪んだテキストを使用する最も安全な逆チューリングテストの一つです。最も難易度が高いreCAPTCHAカテゴリでの精度は99.8%でした。両タスクに対する評価結果は、特定の運用閾値において提案システムの性能が人間オペレータと同等かそれ以上であることを示しています。