HyperAIHyperAI
vor 16 Tagen

DocUNet: Dokumentbildentverzerrung mittels eines gestapelten U-Net

{Jue Wang, Xue Bai, Zhixin Shu, Ke Ma, Dimitris Samaras}
DocUNet: Dokumentbildentverzerrung mittels eines gestapelten U-Net
Abstract

Die Erfassung von Dokumentbildern ist aufgrund der allgegenwärtigen Verbreitung von Mobiltelefonkameras eine gängige Methode zur Digitalisierung und Dokumentation physischer Unterlagen. Um die Texterkennung zu erleichtern, ist es oft wünschenswert, ein Dokumentbild digital zu ebenen, wenn das physische Dokumentblatt gefaltet oder gekrümmt ist. In diesem Paper entwickeln wir die erste lernbasierte Methode, um dieses Ziel zu erreichen. Wir schlagen einen gestapelten U-Net mit intermediärer Supervision vor, um direkt die Vorwärtsabbildung von einem verzerrten Bild auf seine korrigierte Version vorherzusagen. Da großskalige Echtwelt-Daten mit Ground-Truth-Verzerrungen schwer zu beschaffen sind, erstellen wir einen synthetischen Datensatz mit etwa 100.000 Bildern, indem wir nicht-verzerrte Dokumentbilder deformieren. Das Netzwerk wird auf diesem Datensatz unter Verwendung verschiedener Datenaugmentierungsstrategien trainiert, um seine Generalisierungsfähigkeit zu verbessern. Darüber hinaus erstellen wir eine umfassende Benchmark, die verschiedene realwelttypische Bedingungen abdeckt. Wir bewerten das vorgeschlagene Modell quantitativ und qualitativ anhand der Benchmark und vergleichen es mit früheren nicht-lernbasierten Ansätzen.

DocUNet: Dokumentbildentverzerrung mittels eines gestapelten U-Net | Neueste Forschungsarbeiten | HyperAI