HyperAIHyperAI
vor 17 Tagen

RectiNet-v2: Eine gestapelte Netzarchitektur für die Entverzerrung von Dokumentenbildern

Hmrishav Bandyopadhyay, Tanmoy Dasgupta, Nibaran Das, Mita Nasipuri
RectiNet-v2: Eine gestapelte Netzarchitektur für die Entverzerrung von Dokumentenbildern
Abstract

Mit dem Aufkommen mobiler und handhabbarer Kameras haben Dokumentbilder Eingang in nahezu alle Bereiche gefunden. Die Entverzerrung dieser Bilder zur Beseitigung perspektivischer Verzerrungen und Falten ist entscheidend, damit sie von Dokumentenerkennungsalgorithmen verstanden werden können. Dazu schlagen wir eine end-to-end-CNN-Architektur vor, die aus verzerrten Eingabedokumenten verzerrungsfreie Dokumentbilder erzeugen kann. Wir trainieren dieses Modell auf synthetisch simulierten verzerrten Dokumentbildern, um den Mangel an ausreichend natürlichen Daten auszugleichen. Unser Ansatz ist neuartig in der Verwendung eines verzweigten Dekoders mit geteilten Gewichten, um eine Vermischung der Gitterkoordinaten zu verhindern, in der Anwendung von Residual-Netzwerken in den U-Net-Skip-Verbindungen, um den Datenfluss aus unterschiedlichen Empfindlichkeitsfeldern im Modell zu ermöglichen, und in der Nutzung eines gatenen Netzes, das dem Modell hilft, sich auf Struktur- und Linienlevel-Details des Dokumentbildes zu konzentrieren. Wir evaluieren unsere Methode am DocUNet-Datensatz, einem etablierten Benchmark in diesem Bereich, und erzielen Ergebnisse, die mit den besten aktuellen Methoden vergleichbar sind.