Persis: Eine Pipeline zur Erkennung persischer Schriftarten unter Verwendung von Faltungsneuronalen Netzen

Was geschieht, wenn wir eine für unser Designwerk geeignete Schriftart finden, aber ihren Namen nicht kennen? Visuelle Schriftartenenerkennungssysteme (Visual Font Recognition, VFR) werden verwendet, um die Schriftart in einem Bild zu identifizieren. Diese Systeme können Grafikdesignern bei der Identifizierung von Schriftarten in Bildern behilflich sein. Ein VFR-System verbessert zudem die Geschwindigkeit und Genauigkeit von optischen Zeichenerkennungssystemen (Optical Character Recognition, OCR). In dieser Arbeit stellen wir die ersten öffentlich verfügbaren Datensätze im Bereich der persischen Schriftartenenerkennung vor und verwenden konvolutorische Neuronale Netze (Convolutional Neural Networks, CNN), um dieses Problem anzugehen. Die Ergebnisse zeigen, dass der vorgeschlagene Pipeline 78,0 % Top-1-Genauigkeit auf unseren neuen Datensätzen erzielte, 89,1 % auf dem IDPL-PFOD-Datensatz und 94,5 % auf dem KAFD-Datensatz. Darüber hinaus beträgt die durchschnittliche Zeit für das gesamte Pipeline-Verfahren pro Beispiel unserer vorgeschlagenen Datensätze 0,54 Sekunden bei Verwendung eines CPUs und 0,017 Sekunden bei Verwendung eines GPUs. Wir kommen zu dem Schluss, dass CNN-Methoden zur Erkennung persischer Schriftarten eingesetzt werden können, ohne dass zusätzliche Vorverarbeitungsschritte wie Merkmalsextraktion, Binarisierung oder Normalisierung erforderlich sind.