Rekurrenzfreie, unbeschränkte Erkennung handschriftlicher Texte mittels gated fully convolutional network

Die unbeschränkte Handschriftenerkennung stellt einen entscheidenden Schritt in vielen Aufgaben der Dokumentenanalyse dar. Sie wird üblicherweise mit tiefen rekurrenten neuronalen Netzwerken verarbeitet, und speziell mit der Verwendung von Long Short-Term Memory-(LSTM)-Zellen. Die Hauptnachteile dieser Komponenten liegen in der großen Anzahl an Parametern sowie in der sequenziellen Ausführung während des Trainings und der Vorhersage. Eine Alternative zur Verwendung von LSTM-Zellen besteht darin, den Verlust langfristiger Speicherfähigkeit durch eine intensive Nutzung von Faltungsnetzwerken auszugleichen, deren Operationen parallel ausgeführt werden können und weniger Parameter erfordern. In diesem Paper präsentieren wir eine Gated Fully Convolutional Network-Architektur, die eine rekursionsfreie Alternative zu den bekannten CNN+LSTM-Architekturen darstellt. Unser Modell wird mit der CTC-Verlustfunktion trainiert und erzielt auf den Datensätzen RIMES und IAM konkurrenzfähige Ergebnisse. Wir stellen sämtlichen Code zur Verfügung, um die Reproduktion unserer Experimente zu ermöglichen: https://github.com/FactoDeepLearning/LinePytorchOCR.