HyperAIHyperAI
vor 18 Tagen

RAPIDFlow: Rekurrente anpassbare Pyramiden mit iterativer Decodierung für eine effiziente optische Flussabschätzung

{Xu-Cheng Yin, Xiangyang Ji, Roberto M. Cesar-Jr., Xiaobin Zhu, Henrique Morimitsu}
RAPIDFlow: Rekurrente anpassbare Pyramiden mit iterativer Decodierung für eine effiziente optische Flussabschätzung
Abstract

Die Extraktion von Bewegungsinformationen aus Videos mittels optischer Flussabschätzung ist für zahlreiche praktische Anwendungen in der Robotik von entscheidender Bedeutung. Aktuelle Ansätze zur optischen Flussberechnung zeigen beachtliche Genauigkeit, doch die führenden Methoden weisen hohe Rechenkosten auf und sind daher für eingebettete Geräte ungeeignet. Obwohl einige frühere Arbeiten sich auf die Entwicklung kostengünstiger optischer Flussstrategien konzentrierten, bleibt die Schätzungsgenauigkeit dieser Ansätze deutlich hinter den robusteren Verfahren zurück. In diesem Artikel präsentieren wir eine neuartige Methode zur effizienten Schätzung hochwertigen optischen Flusses auf eingebetteten Geräten. Das von uns vorgeschlagene RAPIDFlow-Modell kombiniert effiziente NeXt1D-Konvolutionsblöcke mit einer vollständig rekurrenten Struktur auf Basis von Merkmalspyramiden, um die Rechenkosten zu reduzieren, ohne die Schätzungsgenauigkeit signifikant zu beeinträchtigen. Der anpassbare rekurrente Encoder erzeugt mehrskalige Merkmale mit einem einzigen gemeinsamen Block, wodurch die Pyramidenlänge zur Laufzeit angepasst werden kann und die Robustheit gegenüber Änderungen der Eingabegröße erhöht wird. Zudem ermöglicht dies, verschiedene Kompromisse zwischen Genauigkeit und Geschwindigkeit anzubieten, um unterschiedlichen Anwendungsfällen gerecht zu werden. Experimente auf einem eingebetteten System Jetson Orin NX unter Verwendung der öffentlichen Benchmarks MPI-Sintel und KITTI zeigen, dass RAPIDFlow gegenüber früheren Ansätzen signifikant bessere Ergebnisse bei höherer Geschwindigkeit erzielt.