Gradientbasiertes Lernen zur Anwendung in der Dokumentenerkennung
Multilayerne neuronale Netze, die mit dem Back-Propagation-Algorithmus trainiert werden, stellen das beste Beispiel für eine erfolgreiche gradientenbasierte Lernmethode dar. Gegeben eine geeignete Netzarchitektur können gradientenbasierte Lernalgorithmen dazu verwendet werden, eine komplexe Entscheidungsoberfläche zu synthetisieren, die hochdimensionale Muster – wie handschriftliche Zeichen – mit minimaler Vorverarbeitung klassifizieren kann. In diesem Artikel werden verschiedene Methoden zur Erkennung handschriftlicher Zeichen vorgestellt und auf einer standardisierten Aufgabe zur Erkennung handschriftlicher Ziffern miteinander verglichen. Es zeigt sich, dass Faltungsneuronale Netze (Convolutional Neural Networks), die speziell darauf ausgelegt sind, die Variabilität zweidimensionaler Formen zu bewältigen, alle anderen Techniken übertrifft. Echtzeit-Dokumentenerkennungssysteme bestehen aus mehreren Modulen, darunter Feldextraktion, Segmentierung, Erkennung und Sprachmodellierung. Ein neuartiges Lernparadigma, das sogenannte Graph-Transformer-Netz (Graph Transformer Network, GTN), ermöglicht es, solche multimodularen Systeme global mittels gradientenbasierter Methoden zu trainieren, um eine Gesamtleistungsmaßzahl zu minimieren. Zwei Systeme zur Echtzeit-Erkennung von handschriftlichen Eingaben werden beschrieben. Experimente belegen den Vorteil des globalen Trainings sowie die Flexibilität der Graph-Transformer-Netze. Außerdem wird ein Graph-Transformer-Netz zur Auswertung von Bankchecks vorgestellt. Es kombiniert Faltungsneuronale Netze zur Zeichenerkennung mit globalen Trainingsverfahren und erreicht bei der Erkennung von Geschäfts- und Privatchecks Rekordgenauigkeit. Das System ist bereits kommerziell im Einsatz und verarbeitet täglich mehrere Millionen Checks.