HyperAIHyperAI
vor 2 Monaten

Ein tiefes bewegte-Kamera-Hintergrundmodell

Guy Erez; Ron Shapira Weber; Oren Freifeld
Ein tiefes bewegte-Kamera-Hintergrundmodell
Abstract

Im Bereich der Videoanalyse haben Hintergrundmodelle zahlreiche Anwendungen, wie zum Beispiel die Trennung von Hinter- und Vordergrund, die Erkennung von Veränderungen, die Identifizierung von Anomalien, das Tracking und vieles mehr. Während das Lernen eines solchen Modells in einem durch eine statische Kamera aufgenommenen Video weitgehend gelöst ist, sind die Erfolge bei beweglichen Kameras (Moving-camera Background Model, MCBM) aufgrund algorithmischer und skalierbarkeitsbedingter Herausforderungen, die durch die Kamerabewegung entstehen, deutlich bescheidener. Daher sind bestehende MCBMs in ihrem Umfang begrenzt und nur bestimmte Arten von Kamerabewegungen werden unterstützt. Diese Hindernisse behinderten auch den Einsatz end-to-end-Lösungen basierend auf tiefem Lernen (Deep Learning, DL) in dieser unlösbaren Aufgabe. Darüber hinaus modellieren bestehende MCBMs den Hintergrund in der Regel entweder im Bereich eines typischerweise großen panoramischen Bildes oder in Echtzeit. Leider erzeugt erstere mehrere Probleme, darunter eine schlechte Skalierbarkeit, während letztere die Erkennung und Nutzung von Fällen verhindert, in denen die Kamera bereits gesehen Teile der Szene erneut besucht. In diesem Artikel wird eine neue Methode vorgeschlagen, genannt DeepMCBM, die alle oben genannten Probleme beseitigt und Stand-des-Wissens-ergebnisse erzielt. Konkret identifizieren wir zunächst die Schwierigkeiten der gemeinsamen Ausrichtung von Videobildern sowohl generell als auch insbesondere in einem DL-Kontext. Anschließend schlagen wir eine neue Strategie für die gemeinsame Ausrichtung vor, die es uns ermöglicht, ein räumliches Transformer-Netzwerk zu verwenden ohne Regularisierung oder irgendeine Form spezialisierter (und nicht differenzierbarer) Initialisierung. Zusammen mit einem Autoencoder, der auf unwarperten robusten zentralen Momenten (die aus der gemeinsamen Ausrichtung gewonnen werden) konditioniert ist, ergibt dies ein end-to-end-Regularisierungsfreies MCBM, das einen breiten Spektrum an Kamerabewegungen unterstützt und sich gut skaliert. Wir demonstrieren die Nützlichkeit von DeepMCBM anhand verschiedener Videos einschließlich solcher außerhalb des Umfangs anderer Methoden. Unser Code ist unter https://github.com/BGU-CS-VIL/DeepMCBM verfügbar.