HyperAIHyperAI

Command Palette

Search for a command to run...

DocUNet: Dokumentbildentverzerrung mittels eines gestapelten U-Net

Jue Wang Xue Bai Zhixin Shu Ke Ma Dimitris Samaras

Zusammenfassung

Die Erfassung von Dokumentbildern ist aufgrund der allgegenwärtigen Verbreitung von Mobiltelefonkameras eine gängige Methode zur Digitalisierung und Dokumentation physischer Unterlagen. Um die Texterkennung zu erleichtern, ist es oft wünschenswert, ein Dokumentbild digital zu ebenen, wenn das physische Dokumentblatt gefaltet oder gekrümmt ist. In diesem Paper entwickeln wir die erste lernbasierte Methode, um dieses Ziel zu erreichen. Wir schlagen einen gestapelten U-Net mit intermediärer Supervision vor, um direkt die Vorwärtsabbildung von einem verzerrten Bild auf seine korrigierte Version vorherzusagen. Da großskalige Echtwelt-Daten mit Ground-Truth-Verzerrungen schwer zu beschaffen sind, erstellen wir einen synthetischen Datensatz mit etwa 100.000 Bildern, indem wir nicht-verzerrte Dokumentbilder deformieren. Das Netzwerk wird auf diesem Datensatz unter Verwendung verschiedener Datenaugmentierungsstrategien trainiert, um seine Generalisierungsfähigkeit zu verbessern. Darüber hinaus erstellen wir eine umfassende Benchmark, die verschiedene realwelttypische Bedingungen abdeckt. Wir bewerten das vorgeschlagene Modell quantitativ und qualitativ anhand der Benchmark und vergleichen es mit früheren nicht-lernbasierten Ansätzen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DocUNet: Dokumentbildentverzerrung mittels eines gestapelten U-Net | Paper | HyperAI