HyperAIHyperAI
vor 2 Monaten

Die Ausnutzung der zeitlichen Konsistenz für die Echtzeit-Tiefenschätzung in Videos

Haokui Zhang; Chunhua Shen; Ying Li; Yuanzhouhan Cao; Yu Liu; Youliang Yan
Die Ausnutzung der zeitlichen Konsistenz für die Echtzeit-Tiefenschätzung in Videos
Abstract

Die Genauigkeit der Tiefenschätzung aus statischen Bildern wurde kürzlich durch die Nutzung hierarchischer Merkmale von tiefen Faltungsneuronalen Netzen (CNNs) erheblich verbessert. Im Vergleich zu statischen Bildern existiert in Videosequenzen eine umfangreiche Informationsmenge, die genutzt werden kann, um die Leistungsfähigkeit der Tiefenschätzung zu steigern. In dieser Arbeit konzentrieren wir uns auf die Exploration zeitlicher Informationen aus monokularen Videos für die Tiefenschätzung. Insbesondere nutzen wir die Vorteile von faltenden Long Short-Term Memory-Netzen (CLSTM) und schlagen eine neuartige räumlich-zeitliche CLSTM-Struktur (ST-CLSTM) vor. Unsere ST-CLSTM-Struktur kann nicht nur räumliche Merkmale, sondern auch zeitliche Korrelationen/Konsistenzen zwischen aufeinanderfolgenden Videobildern mit einem vernachlässigbaren Anstieg des Rechenaufwands erfassen. Zudem, um die zeitliche Konsistenz zwischen den geschätzten Tiefenbildern zu gewährleisten, wenden wir ein generatives adversariales Lernschema an und entwickeln einen Verlust zur zeitlichen Konsistenz. Der Verlust zur zeitlichen Konsistenz wird mit dem räumlichen Verlust kombiniert, um das Modell in einer end-to-end Weise zu aktualisieren. Durch die Nutzung der zeitlichen Informationen bauen wir einen Video-Tiefenschätzungsrahmen auf, der in Echtzeit läuft und visuell ansprechende Ergebnisse erzeugt. Darüber hinaus ist unser Ansatz flexibel und kann auf die meisten bestehenden Tiefenschätzungsrahmen verallgemeinert werden. Der Quellcode ist unter folgendem Link verfügbar: https://tinyurl.com/STCLSTM

Die Ausnutzung der zeitlichen Konsistenz für die Echtzeit-Tiefenschätzung in Videos | Neueste Forschungsarbeiten | HyperAI