HyperAIHyperAI
vor 2 Monaten

Echtzeit-Übersetzung hochaufgelöster fotorealistischer Bilder: Ein Laplace-Pyramiden-Übersetzungsnetzwerk

Liang, Jie ; Zeng, Hui ; Zhang, Lei
Echtzeit-Übersetzung hochaufgelöster fotorealistischer Bilder: Ein Laplace-Pyramiden-Übersetzungsnetzwerk
Abstract

Bestehende Bild-zu-Bild-Übersetzungsmethoden (I2IT) sind entweder auf niedrige Auflösungen beschränkt oder zeichnen sich durch lange Inferenzzeiten aus, aufgrund der hohen rechnerischen Belastung durch die Faltung hochaufgelöster Merkmalskarten. In dieser Arbeit konzentrieren wir uns darauf, hochauflösende fotorealistische I2IT-Aufgaben zu beschleunigen, basierend auf der geschlossenen Form der Laplace-Pyramidenzerlegung und -rekonstruktion. Insbesondere zeigen wir, dass Attributstransformationen, wie Helligkeits- und Farbanpassungen, stärker mit dem Niederfrequenzkomponenten zusammenhängen, während die Inhaltsdetails an den Hochfrequenzkomponenten adaptiv verfeinert werden können. Folglich schlagen wir ein Laplace-Pyramiden-Übersetzungsnetzwerk (LPTN) vor, das diese beiden Aufgaben gleichzeitig durchführt. Dabei entwickeln wir ein leichtgewichtiges Netzwerk zur Übersetzung des Niederfrequenzkomponenten mit reduzierter Auflösung sowie eine progressive Maskierungsstrategie zur effizienten Verfeinerung der Hochfrequenzkomponenten. Unser Modell vermeidet den Großteil der hohen Rechenleistung, die bei der Verarbeitung hochaufgelöster Merkmalskarten notwendig ist, und bewahrt treu die Bildetails. Ausführliche experimentelle Ergebnisse für verschiedene Aufgaben demonstrieren, dass die vorgeschlagene Methode 4K-Bilder in Echtzeit mit einer normalen GPU übersetzen kann und dabei vergleichbare Transformationsleistungen wie bestehende Methoden erzielt. Die Datensätze und Codes sind verfügbar: https://github.com/csjliang/LPTN.

Echtzeit-Übersetzung hochaufgelöster fotorealistischer Bilder: Ein Laplace-Pyramiden-Übersetzungsnetzwerk | Neueste Forschungsarbeiten | HyperAI