
要約
伝統的なコンピュータビジョンや機械学習の手法は、手書き数字や交通標識の認識などのタスクにおいて人間の性能に匹敵することはできません。しかし、我々が提案する生物学的に妥当な深層人工ニューラルネットワークアーキテクチャはその性能を達成できます。畳み込み型ウィナー・テイク・オール(勝者独占)ニューロンの小さな(しばしば最小限の)受容野により、ネットワークの深さが大きくなり、網膜から視覚皮質までの間に哺乳類で見られるほど多くの疎結合ニューロン層を持つことになります。訓練されるのは勝者のニューロンのみです。複数の深いニューラルコラムが異なる方法で前処理された入力に対して専門家となり、それらの予測結果は平均化されます。グラフィックスカードを使用することで高速な訓練が可能となります。非常に競争の激しいMNIST手書き文字認識ベンチマークにおいて、我々の手法は初めて近似人間レベルの性能を達成しました。また、交通標識認識ベンチマークでは人間の性能を2倍上回っています。さらに、一般的な画像分類ベンチマークにおいても最先端技術を大幅に向上させています。