HyperAIHyperAI
vor 9 Tagen

Effiziente und informationsbewahrende Vorhersage zukünftiger Frames und darüber hinaus

{Yichao Lu, Wei Yu, Sanja Fidler, Steve Easterbrook}
Effiziente und informationsbewahrende Vorhersage zukünftiger Frames und darüber hinaus
Abstract

Die Anwendung von auflösungserhaltenden Blöcken ist eine gängige Praxis, um die Informationsbewahrung in der Videovorhersage zu maximieren, doch ihre hohe Speicheraufnahme begrenzt ihre Anwendungsszenarien erheblich. Wir stellen CrevNet vor, ein bedingt reversibles Netzwerk, das reversible Architekturen nutzt, um einen bijektiven zweiseitigen Autoencoder sowie einen komplementären rekurrenten Predictor zu konstruieren. Unser Modell verfügt über die theoretisch garantierte Eigenschaft, bei der Merkmalsextraktion keine Informationsverluste zu erfahren, weist eine deutlich geringere Speicheraufnahme und hohe rechnerische Effizienz auf. Die geringe Komplexität unseres Modells ermöglicht es uns, 3D-Faltungen ohne Sorge vor Speicherengpässen einzubeziehen, wodurch die Fähigkeit des Modells zur Erfassung sowohl kurzfristiger als auch langfristiger zeitlicher Abhängigkeiten verbessert wird. Unser vorgeschlagener Ansatz erzielt state-of-the-art-Ergebnisse auf den Datensätzen Moving MNIST, Traffic4cast und KITTI. Darüber hinaus zeigen wir die Übertragbarkeit unserer selbstüberwachten Lernmethode, indem wir die gelernten Merkmale für die Objekterkennung auf KITTI nutzen. Unsere konkurrenzfähigen Ergebnisse deuten auf das Potenzial von CrevNet hin, als generative Vortraining-Strategie zur Orientierung nachgeschalteter Aufgaben eingesetzt zu werden.