HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

DewarpNet: Einzelbild-Dokument-Entkrümmung mit gestapelten 3D- und 2D-Regressionsnetzwerken

{ Roy Shilkrot Dimitris Samaras Zhixin Shu Ke Ma Sagnik Das}

DewarpNet: Einzelbild-Dokument-Entkrümmung mit gestapelten 3D- und 2D-Regressionsnetzwerken

Abstract

Die Aufnahme von Dokumentbildern mit handgehaltenen Geräten in ungeordneten Umgebungen ist heutzutage eine verbreitete Praxis. Allerdings sind „casuelle“ Fotos von Dokumenten in der Regel für die automatisierte Informationsextraktion ungeeignet, hauptsächlich aufgrund physikalischer Verzerrungen des Dokumentpapiers sowie unterschiedlicher Kamerapositionen und Beleuchtungsbedingungen. In dieser Arbeit stellen wir DewarpNet vor, einen Deep-Learning-Ansatz zur Entzerrung von Dokumentbildern aus einem einzigen Bild. Unser zentrales Konzept beruht darauf, dass die 3D-Geometrie des Dokumentpapiers nicht nur die Verzerrung der Textur beeinflusst, sondern auch die Beleuchtungseffekte verursacht. Daher liegt die Innovation in der expliziten Modellierung der 3D-Form des Dokumentpapiers in einer end-to-end-Architektur. Zudem tragen wir bislang die umfangreichste und umfassendste Datensammlung für die Entzerrung von Dokumentbildern bei – Doc3D. Diese Datensammlung verfügt über mehrere Ground-Truth-Anmerkungen, darunter 3D-Form, Oberflächnennormalen, UV-Karte, Albedo-Bild usw. Bei der Ausbildung mit Doc3D erreichen wir eine state-of-the-art-Leistung für DewarpNet, die durch umfassende qualitative und quantitative Bewertungen belegt wird. Unser Netzwerk verbessert zudem signifikant die OCR-Leistung auf aufgenommenen Dokumentbildern und senkt die Zeichenfehlerquote im Durchschnitt um 42 %. Sowohl der Quellcode als auch die Datensammlung werden öffentlich bereitgestellt.

Benchmarks

BenchmarkMethodikMetriken
ms-ssim-on-docunetDewarpNet
MS-SSIM: 0.47

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DewarpNet: Einzelbild-Dokument-Entkrümmung mit gestapelten 3D- und 2D-Regressionsnetzwerken | Forschungsarbeiten | HyperAI