HyperAIHyperAI
vor 17 Tagen

DewarpNet: Einzelbild-Dokument-Entkrümmung mit gestapelten 3D- und 2D-Regressionsnetzwerken

{ Roy Shilkrot, Dimitris Samaras, Zhixin Shu, Ke Ma, Sagnik Das}
DewarpNet: Einzelbild-Dokument-Entkrümmung mit gestapelten 3D- und 2D-Regressionsnetzwerken
Abstract

Die Aufnahme von Dokumentbildern mit handgehaltenen Geräten in ungeordneten Umgebungen ist heutzutage eine verbreitete Praxis. Allerdings sind „casuelle“ Fotos von Dokumenten in der Regel für die automatisierte Informationsextraktion ungeeignet, hauptsächlich aufgrund physikalischer Verzerrungen des Dokumentpapiers sowie unterschiedlicher Kamerapositionen und Beleuchtungsbedingungen. In dieser Arbeit stellen wir DewarpNet vor, einen Deep-Learning-Ansatz zur Entzerrung von Dokumentbildern aus einem einzigen Bild. Unser zentrales Konzept beruht darauf, dass die 3D-Geometrie des Dokumentpapiers nicht nur die Verzerrung der Textur beeinflusst, sondern auch die Beleuchtungseffekte verursacht. Daher liegt die Innovation in der expliziten Modellierung der 3D-Form des Dokumentpapiers in einer end-to-end-Architektur. Zudem tragen wir bislang die umfangreichste und umfassendste Datensammlung für die Entzerrung von Dokumentbildern bei – Doc3D. Diese Datensammlung verfügt über mehrere Ground-Truth-Anmerkungen, darunter 3D-Form, Oberflächnennormalen, UV-Karte, Albedo-Bild usw. Bei der Ausbildung mit Doc3D erreichen wir eine state-of-the-art-Leistung für DewarpNet, die durch umfassende qualitative und quantitative Bewertungen belegt wird. Unser Netzwerk verbessert zudem signifikant die OCR-Leistung auf aufgenommenen Dokumentbildern und senkt die Zeichenfehlerquote im Durchschnitt um 42 %. Sowohl der Quellcode als auch die Datensammlung werden öffentlich bereitgestellt.