HyperAIHyperAI
vor 17 Tagen

Gemeinsame Lernung von Erscheinung und Bewegung zur effizienten Korrektur des Rolling Shutter-Verzerrung

{Qi Liu, Zhexiong Wan, Yuchao Dai, Yuxin Mao, Bin Fan}
Gemeinsame Lernung von Erscheinung und Bewegung zur effizienten Korrektur des Rolling Shutter-Verzerrung
Abstract

Die Korrektur des Rolling Shutter (RSC) gewinnt zunehmend an Bedeutung für RS-Kameras, die in kommerziellen und industriellen Anwendungen weit verbreitet sind. Trotz der vielversprechenden Leistung verwenden bestehende RSC-Methoden typischerweise eine zweistufige Netzwerkarchitektur, die interne Informationswechselwirkungen vernachlässigt und somit eine schnelle Inferenz erschwert. In diesem Artikel stellen wir ein einstufiges, encoder-decoder-basiertes Netzwerk namens JAMNet für eine effiziente RSC-Methode vor. Es extrahiert zunächst pyramidenförmige Merkmale aus aufeinanderfolgenden RS-Eingaben und verfeinert anschließend simultan zwei komplementäre Informationen – nämlich das Globale-Shutter-Bild und den Bewegungsfeld-Deformationsvektor – im gemeinsamen Lern-Decoder, um eine wechselseitige Förderung zu erreichen. Um ausreichend Bewegungsinformationen zur Leitung des gemeinsamen Lernprozesses bereitzustellen, führen wir ein transformer-basiertes Bewegungsembedding-Modul ein und schlagen vor, versteckte Zustände über die verschiedenen Pyramidenstufen hinweg zu übertragen. Darüber hinaus präsentieren wir eine neue Daten-Augmentierungsstrategie „vertikale Spiegelung + umgekehrte Reihenfolge“, um das volle Potenzial von RSC-Datensätzen auszuschöpfen. Experimente an verschiedenen Benchmarks zeigen, dass unsere Methode die bisherigen State-of-the-Art-Methoden deutlich übertrifft, insbesondere mit einem Sprung von 4,7 dB PSNR bei realen RSC-Daten. Der Quellcode ist unter https://github.com/GitCVfb/JAMNet verfügbar.