Entkoppelung physikalischer Dynamiken von unbekannten Faktoren für die überwachungsfreie Videovorhersage

Die Nutzung physikalischer Kenntnisse, die durch partielle Differentialgleichungen (PDEs) beschrieben werden, stellt eine vielversprechende Methode dar, um unsupervisierte Videovorhersagemethoden zu verbessern. Da die Physik jedoch zu restriktiv ist, um den gesamten visuellen Inhalt generischer Videos zu beschreiben, führen wir PhyDNet ein, eine zweiästige tiefe Architektur, die die Dynamik gemäß PDEs explizit von unbekannten ergänzenden Informationen entkoppelt. Ein weiterer Beitrag besteht in der Einführung einer neuen rekurrenten physikalischen Zelle (PhyCell), die sich an Techniken der Datenassimilation orientiert und zur PDE-konstruierten Vorhersage im latenzraumfähigen Raum dient. Umfassende Experimente an vier verschiedenen Datensätzen zeigen die Fähigkeit von PhyDNet, state-of-the-art-Methoden zu übertreffen. Ablationsstudien unterstreichen zudem den signifikanten Nutzen sowohl der Entkoppelung als auch der PDE-konstruierten Vorhersage. Schließlich zeigen wir, dass PhyDNet interessante Eigenschaften für die Behandlung fehlender Daten und langfristige Vorhersagen aufweist.