HyperAIHyperAI
vor 2 Monaten

OCR-freier Dokumentenverstehens-Transformer

Kim, Geewook ; Hong, Teakgyu ; Yim, Moonbin ; Nam, Jeongyeon ; Park, Jinyoung ; Yim, Jinyeong ; Hwang, Wonseok ; Yun, Sangdoo ; Han, Dongyoon ; Park, Seunghyun
OCR-freier Dokumentenverstehens-Transformer
Abstract

Das Verstehen von Dokumentenbildern (z. B. Rechnungen) ist eine Kern- aber schwierige Aufgabe, da sie komplexe Funktionen wie das Lesen von Text und ein ganzheitliches Verständnis des Dokuments erfordert. Aktuelle Methoden der visuellen Dokumentverarbeitung (VDU) übertragen die Aufgabe des Textlesens an standardisierte optische Zeichenerkennungssysteme (OCR) und konzentrieren sich auf die Verarbeitungsaufgabe mit den OCR-Ausgaben. Obwohl solche OCR-basierten Ansätze vielversprechende Ergebnisse gezeigt haben, leiden sie unter 1) hohen Rechenkosten für die Nutzung von OCR; 2) der Starrheit von OCR-Modellen in Bezug auf Sprachen oder Arten von Dokumenten; 3) der Fehlerfortpflanzung von OCR im nachfolgenden Prozess. Um diese Probleme zu lösen, stellen wir in dieser Arbeit ein neues OCR-freies VDU-Modell namens Donut vor, was für "Document understanding transformer" steht. Als erster Schritt in der Forschung zur OCR-freien VDU schlagen wir eine einfache Architektur (d.h., Transformer) mit einem Vortrainingsziel (d.h., Kreuzentropieverlust) vor. Donut ist konzeptionell einfach, aber effektiv. Durch umfangreiche Experimente und Analysen zeigen wir, dass ein einfaches OCR-freies VDU-Modell, Donut, sowohl in Bezug auf Geschwindigkeit als auch auf Genauigkeit herausragende Leistungen bei verschiedenen VDU-Aufgaben erzielt. Darüber hinaus bieten wir einen synthetischen Datengenerator an, der das Vortraining des Modells in verschiedenen Sprachen und Domänen flexibel gestaltet. Der Code, das trainierte Modell und die synthetischen Daten sind unter https://github.com/clovaai/donut verfügbar.

OCR-freier Dokumentenverstehens-Transformer | Neueste Forschungsarbeiten | HyperAI