HyperAIHyperAI

Command Palette

Search for a command to run...

Steigerung der Genauigkeit und Beschleunigung der Dokumentbildklassifizierung durch parallele Systeme

Javier Ferrando Juan Luis Dominguez Jordi Torres Raul Garcia David Garcia Daniel Garrido Jordi Cortada Mateo Valero

Zusammenfassung

Diese Arbeit präsentiert eine Studie, die die Vorteile der EfficientNet-Modelle im Vergleich zu schwereren Convolutional Neural Networks (CNNs) bei der Dokumentenklassifizierung aufzeigt, einem zentralen Problem im Digitalisierungsprozess von Institutionen. Wir zeigen anhand des RVL-CDIP-Datensatzes, dass mit einem deutlich leichteren Modell bereits frühere Ergebnisse übertroffen werden können, und demonstrieren zudem dessen Transfer-Learning-Fähigkeiten auf einem kleineren, domänenspezifischen Datensatz wie Tobacco3482. Darüber hinaus stellen wir ein Ensemblesystem vor, das die Leistung allein auf Basis von Bildeingaben steigert, indem es Vorhersagen des Bildmodells mit denen eines BERT-Modells kombiniert, die auf durch OCR extrahierten Texten basieren. Zudem zeigen wir, dass die Batch-Größe effektiv erhöht werden kann, ohne die Genauigkeit zu beeinträchtigen, wodurch der Trainingsprozess durch parallele Ausführung über mehrere GPUs beschleunigt werden kann und somit die benötigte Rechenzeit reduziert wird. Abschließend beleuchten wir die Unterschiede im Trainingsverhalten zwischen den Deep-Learning-Frameworks PyTorch und TensorFlow.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Steigerung der Genauigkeit und Beschleunigung der Dokumentbildklassifizierung durch parallele Systeme | Paper | HyperAI