HyperAIHyperAI

Command Palette

Search for a command to run...

HTR-VT: Handschriftenerkennung mit Vision Transformer

Yuting Li Dexiong Chen Tinglong Tang Xi Shen

Zusammenfassung

Wir untersuchen die Anwendung von Vision Transformers (ViT) für die Erkennung von handschriftlichem Text. Die begrenzte Verfügbarkeit von etikettierten Daten in diesem Bereich stellt Herausforderungen dar, um allein durch den Einsatz von ViT eine hohe Leistung zu erzielen. Frühere transformerbasierte Modelle benötigten externe Daten oder umfangreiche Vortraining auf großen Datensätzen, um hervorragende Ergebnisse zu erzielen. Um diese Einschränkung zu überwinden, stellen wir eine daten-effiziente ViT-Methode vor, die nur den Encoder des Standard-Transformers verwendet. Wir feststellen, dass die Einbindung eines Faltungsnetzes (Convolutional Neural Network, CNN) zur Merkmalsextraktion anstelle der ursprünglichen Patch-Embedding-Technik sowie die Verwendung des Sharpness-Aware Minimization (SAM)-Optimierers, um das Modell zu flacheren Minima konvergieren zu lassen und bemerkenswerte Verbesserungen zu erzielen, vorteilhaft ist. Darüber hinaus dient unsere Einführung der Span-Mask-Technik, die zusammenhängende Merkmale in der Merkmalskarte maskiert, als effektiver Regularisierer. Empirisch zeigt unser Ansatz eine günstige Konkurrenz zu traditionellen CNN-basierten Modellen auf kleinen Datensätzen wie IAM und READ2016. Zudem legt er einen neuen Maßstab im LAM-Datensatz fest, der derzeit den größten Datensatz mit 19.830 Trainingszeilen enthält. Der Code ist öffentlich verfügbar unter: https://github.com/YutingLi0606/HTR-VT.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp