BinaryConnect: Training Deep Neural Networks mit binären Gewichten während der Propagation

Deep Neural Networks (DNN) haben in einer Vielzahl von Aufgaben herausragende Ergebnisse erzielt, wobei die besten Leistungen mit großen Trainingsdatensätzen und großen Modellen erzielt werden. In der Vergangenheit ermöglichten GPUs diese Durchbrüche aufgrund ihrer höheren Rechengeschwindigkeit. In Zukunft wird eine schnellere Berechnung sowohl während des Trainings als auch während der Testphase wahrscheinlich entscheidend für weitere Fortschritte sowie für Anwendungen auf energiesparenden Endgeräten sein. Daraus ergibt sich ein großes Interesse an Forschung und Entwicklung spezialisierter Hardware für Deep Learning (DL). Binäre Gewichte – also Gewichte, die auf nur zwei mögliche Werte beschränkt sind (z. B. −1 oder 1) – würden spezialisierte DL-Hardware erheblich entlasten, indem sie viele Multiplikations-Akkumulations-Operationen durch einfache Akkumulationen ersetzen, da Multiplizierer die räumlich- und energieaufwendigsten Komponenten der digitalen Implementierung neuronalen Netzwerke darstellen. Wir stellen BinaryConnect vor, eine Methode, bei der ein DNN während der Vorwärts- und Rückwärtspropagation mit binären Gewichten trainiert wird, während die gespeicherten Gewichte mit hoher Präzision erhalten bleiben, in denen die Gradienten akkumuliert werden. Ähnlich wie andere Dropout-Verfahren zeigen wir, dass BinaryConnect als Regularisierung wirkt, und erreichen mit BinaryConnect nahezu state-of-the-art-Ergebnisse auf den permutationssensitiven Versionen von MNIST, CIFAR-10 und SVHN.