Tiefe Residualsequenznetze mit Exponential-Linearer Einheit

Sehr tiefe Faltungsschicht-Neuronale Netze (Convolutional Neural Networks, CNNs) haben neue Probleme wie das Verschwinden des Gradienten und die Degradierung eingeführt. Kürzliche erfolgreiche Beiträge zur Lösung dieser Probleme sind die Residual-Netze und die Highway-Netze. Diese Netzwerke führen Übersprungskonnektivitäten (Skip Connections) ein, die es ermöglichen, dass Informationen (vom Eingang oder in früheren Schichten gelernt) besser in die tieferen Schichten fließen. Diese sehr tiefen Modelle haben zu einem erheblichen Rückgang der Testfehler auf Benchmarks wie ImageNet und COCO geführt. In dieser Arbeit schlagen wir vor, Exponential Linear Units (ELUs) anstelle der Kombination aus ReLU und Batch Normalisierung in Residual-Netzen zu verwenden. Wir zeigen, dass dies nicht nur das Lernen in Residual-Netzen beschleunigt, sondern auch die Genauigkeit mit zunehmender Tiefe verbessert. Es reduziert die Testfehler auf fast allen Datensätzen, wie CIFAR-10 und CIFAR-100.