vor 2 Monaten

HTR-VT: Handschriftenerkennung mit Vision Transformer

Li, Yuting ; Chen, Dexiong ; Tang, Tinglong ; Shen, Xi

Abstract

Wir untersuchen die Anwendung von Vision Transformers (ViT) für die Erkennung von handschriftlichem Text. Die begrenzte Verfügbarkeit von etikettierten Daten in diesem Bereich stellt Herausforderungen dar, um allein durch den Einsatz von ViT eine hohe Leistung zu erzielen. Frühere transformerbasierte Modelle benötigten externe Daten oder umfangreiche Vortraining auf großen Datensätzen, um hervorragende Ergebnisse zu erzielen. Um diese Einschränkung zu überwinden, stellen wir eine daten-effiziente ViT-Methode vor, die nur den Encoder des Standard-Transformers verwendet. Wir feststellen, dass die Einbindung eines Faltungsnetzes (Convolutional Neural Network, CNN) zur Merkmalsextraktion anstelle der ursprünglichen Patch-Embedding-Technik sowie die Verwendung des Sharpness-Aware Minimization (SAM)-Optimierers, um das Modell zu flacheren Minima konvergieren zu lassen und bemerkenswerte Verbesserungen zu erzielen, vorteilhaft ist. Darüber hinaus dient unsere Einführung der Span-Mask-Technik, die zusammenhängende Merkmale in der Merkmalskarte maskiert, als effektiver Regularisierer. Empirisch zeigt unser Ansatz eine günstige Konkurrenz zu traditionellen CNN-basierten Modellen auf kleinen Datensätzen wie IAM und READ2016. Zudem legt er einen neuen Maßstab im LAM-Datensatz fest, der derzeit den größten Datensatz mit 19.830 Trainingszeilen enthält. Der Code ist öffentlich verfügbar unter: https://github.com/YutingLi0606/HTR-VT.