HyperAIHyperAI
vor 8 Tagen

INR-V: Ein kontinuierlicher Darstellungsraum für videobasierte generative Aufgaben

Bipasha Sen, Aditya Agarwal, Vinay P Namboodiri, C. V. Jawahar
INR-V: Ein kontinuierlicher Darstellungsraum für videobasierte generative Aufgaben
Abstract

Die Generierung von Videos ist eine komplexe Aufgabe, die durch die schrittweise Erzeugung einer Reihe zeitlich konsistenter Bilder frame-basiert bewältigt wird. Dies begrenzt die Ausdruckskraft von Videos auf ausschließlich bilddatenbasierte Operationen an einzelnen Videoframes und erfordert spezielle Netzwerkarchitekturen, um zeitlich konsistente Trajektorien im zugrundeliegenden Bildraum zu erzielen. Wir stellen INR-V vor, ein Netzwerk zur Video-Repräsentation, das einen kontinuierlichen Raum für generative Aufgaben basierend auf Videos lernt. INR-V parameterisiert Videos mittels impliziter neuronalen Repräsentationen (Implicit Neural Representations, INRs), eines mehrschichtigen Perzeptrons, das für jede Eingabepixelposition eines Videos einen RGB-Wert vorhersagt. Die INR wird durch ein Meta-Netzwerk generiert, das eine Hypernetzwerkarchitektur darstellt und auf neuronalen Repräsentationen mehrerer Video-Instanzen trainiert wurde. Anschließend kann das Meta-Netzwerk abgetastet werden, um vielfältige neue Videos zu erzeugen und somit zahlreiche nachgeschaltete generative Videoaufgaben zu ermöglichen. Interessanterweise stellen wir fest, dass eine bedingte Regularisierung und eine progressive Gewichtsinitialisierung entscheidend für die Leistungsfähigkeit von INR-V sind. Der durch INR-V gelernte Repräsentationsraum ist ausdrucksstärker als ein klassischer Bildraum und zeigt zahlreiche interessante Eigenschaften, die mit bisherigen Ansätzen nicht möglich sind. Beispielsweise kann INR-V glatte Interpolationen zwischen bekannten Video-Instanzen erzeugen (z. B. Zwischenidentitäten, -ausdrücke und -pose in Gesichts-Videos). Außerdem ist es in der Lage, fehlende Abschnitte in Videos zu rekonstruieren, um vollständige, zeitlich konsistente Videos wiederherzustellen. In dieser Arbeit evaluieren wir den von INR-V gelernten Raum anhand verschiedener generativer Aufgaben wie Video-Interpolation, Neugenerierung von Videos, Video-Inversion und Video-Inpainting im Vergleich zu bestehenden Baselines. INR-V übertrifft die Baselines in mehreren dieser Aufgaben deutlich und zeigt eindrucksvoll das Potenzial des vorgeschlagenen Repräsentationsraums.

INR-V: Ein kontinuierlicher Darstellungsraum für videobasierte generative Aufgaben | Neueste Forschungsarbeiten | HyperAI