HyperAIHyperAI
vor 9 Tagen

Genauige Lernung von Gitter-Schlüsselpunkten für effiziente Video-Vorhersage

Xiaojie Gao, Yueming Jin, Qi Dou, Chi-Wing Fu, Pheng-Ann Heng
Genauige Lernung von Gitter-Schlüsselpunkten für effiziente Video-Vorhersage
Abstract

Video-Vorhersagemethoden verbrauchen im Allgemeinen erhebliche Rechenressourcen sowohl im Training als auch bei der Bereitstellung. Unter ihnen zeigen keypoint-basierte Ansätze vielversprechende Verbesserungen hinsichtlich der Effizienz, indem sie die dichte Bildvorhersage auf eine leichtgewichtige Keypoint-Vorhersage vereinfachen. Allerdings werden Keypoint-Positionen oft lediglich als kontinuierliche Koordinaten modelliert, wodurch Rauschen durch semantisch unwichtige Abweichungen in Videos die Lernstabilität leicht stören kann und zu ungenauen Keypoint-Modellen führt. In diesem Paper stellen wir einen neuen Grid-Keypoint-Lernrahmen vor, dessen Ziel es ist, eine robuste und interpretierbare Zwischenrepräsentation für Keypoints zu ermöglichen, um langfristig effiziente Video-Vorhersagen zu erreichen. Wir leisten zwei wesentliche technische Beiträge. Erstens detektieren wir Keypoints durch Sprünge zwischen Kandidatenpositionen im aufgestellten Gitterraum und definieren eine Konzentrationsschwelle (condensation loss), um bedeutungsvolle Keypoints mit starker Repräsentationskraft zu fördern. Zweitens führen wir eine 2D-Binärkarte zur Darstellung der detektierten Gitter-Keypoints ein und schlagen vor, die Keypoint-Positionen durch stochastische Auswahl von Einträgen im diskreten Gitterraum zu propagieren, wodurch die räumliche Struktur der Keypoints über einen langen Horizont hinweg erhalten bleibt und somit eine bessere Generierung zukünftiger Bilder ermöglicht wird. Umfangreiche Experimente bestätigen, dass unsere Methode die derzeitigen State-of-the-Art-Methoden für stochastische Video-Vorhersage übertrifft, während gleichzeitig mehr als 98 % der Rechenressourcen eingespart werden. Wir demonstrieren zudem die Anwendbarkeit unserer Methode an einem Datensatz aus roboterunterstützten chirurgischen Eingriffen mit vielversprechenden Ergebnissen. Der Quellcode ist unter https://github.com/xjgaocs/Grid-Keypoint-Learning verfügbar.