Bildklassifizierung mit tiefen konvolutionellen neuronalen Netzen

Wir haben ein großes, tiefes convolutionales neuronal Netzwerk trainiert, um die 1,3 Millionen hochauflösenden Bilder des ImageNet-Trainingssets aus dem Jahr LSVRC-2010 in die 1000 verschiedenen Klassen zu klassifizieren. Auf den Testdaten erreichten wir Fehlerraten von 39,7 % für die Top-1- und 18,9 % für die Top-5-Prädiktion, was deutlich besser ist als die vorherigen Stand der Technik. Das Netzwerk verfügt über 60 Millionen Parameter und 500.000 Neuronen und besteht aus fünf convolutionalen Schichten, von denen einige durch Max-Pooling-Schichten folgen, sowie zwei global verbundenen Schichten mit abschließendem 1000-Wege-Softmax. Um das Training zu beschleunigen, verwendeten wir nicht-saturierende Neuronen und eine sehr effiziente GPU-Implementierung convolutionaler Netze. Um Überanpassung in den global verbundenen Schichten zu reduzieren, setzten wir eine neue Regularisierungsmethode ein, die sich als äußerst wirksam erwies.