Ein gatemodulierter und bifurkierter gestapelter U-Net-Modul für die Entverzerrung von Dokumentenbildern

Die Aufnahme von Dokumentenbildern ist eine der einfachsten und am häufigsten angewendeten Methoden zur Dokumentation. Diese Bilder weisen jedoch oft unerwünschte Verzerrungen auf, die durch die Nutzung handhabbarer Geräte verursacht werden und schwer zu beseitigen sind. Wir stellen ein überwachtes, gatingsbasiertes und verzweigtes gestapeltes U-Net-Modul vor, das ein Entverzerrungsnetz vorhersagt und ein verzerrungsfreies Bild aus dem Eingabebild erzeugt. Während das Netzwerk auf synthetisch verzerrenden Dokumentenbildern trainiert wird, werden die Ergebnisse anhand realer Weltbilder bewertet. Der Innovationsgehalt unserer Methode liegt nicht nur in der Verzweigung des U-Net, die das Verwischen der Netzkoordinaten verhindert, sondern auch in der Verwendung eines gatingsbasierten Netzwerks, das der Modellarchitektur Rand- und andere feine Linieninformationen hinzufügt. Die von uns vorgeschlagene end-to-end-Pipeline erreicht nach Training mit nur 8 Prozent der Daten, die in früheren Methoden verwendet wurden, eine state-of-the-art-Leistung auf dem DocUNet-Datensatz.