Steigerung der Genauigkeit und Beschleunigung der Dokumentbildklassifizierung durch parallele Systeme

Diese Arbeit präsentiert eine Studie, die die Vorteile der EfficientNet-Modelle im Vergleich zu schwereren Convolutional Neural Networks (CNNs) bei der Dokumentenklassifizierung aufzeigt, einem zentralen Problem im Digitalisierungsprozess von Institutionen. Wir zeigen anhand des RVL-CDIP-Datensatzes, dass mit einem deutlich leichteren Modell bereits frühere Ergebnisse übertroffen werden können, und demonstrieren zudem dessen Transfer-Learning-Fähigkeiten auf einem kleineren, domänenspezifischen Datensatz wie Tobacco3482. Darüber hinaus stellen wir ein Ensemblesystem vor, das die Leistung allein auf Basis von Bildeingaben steigert, indem es Vorhersagen des Bildmodells mit denen eines BERT-Modells kombiniert, die auf durch OCR extrahierten Texten basieren. Zudem zeigen wir, dass die Batch-Größe effektiv erhöht werden kann, ohne die Genauigkeit zu beeinträchtigen, wodurch der Trainingsprozess durch parallele Ausführung über mehrere GPUs beschleunigt werden kann und somit die benötigte Rechenzeit reduziert wird. Abschließend beleuchten wir die Unterschiede im Trainingsverhalten zwischen den Deep-Learning-Frameworks PyTorch und TensorFlow.