Few-Shot Video-to-Video Synthese

Die Video-zu-Video-Synthese (Vid2Vid) zielt darauf ab, ein semantisches Eingabevideo, wie zum Beispiel Videos von menschlichen Poses oder Segmentierungsmasken, in ein fotorealistisches Ausgabevideo zu konvertieren. Obwohl der Stand der Technik bei Vid2Vid erheblich vorangeschritten ist, teilen sich die bestehenden Ansätze zwei wesentliche Einschränkungen. Erstens sind sie datenhungrig. Für das Training werden zahlreiche Bilder des Zielobjekts oder der Szene benötigt. Zweitens besitzt ein gelerntes Modell begrenzte Generalisierungsfähigkeiten. Ein Pose-zu-Mensch-Vid2Vid-Modell kann nur die Poses der einzelnen Person im Trainingsdatensatz synthetisieren und verallgemeinert sich nicht auf andere Menschen, die nicht im Trainingsdatensatz enthalten sind. Um diese Einschränkungen zu überwinden, schlagen wir einen Few-Shot-Vid2Vid-Rahmen vor, der durch das Nutzen weniger Beispielbilder des Ziels zur Laufzeit lernen kann, Videos von bisher unbekannten Objekten oder Szenen zu synthetisieren. Unser Modell erreicht diese Few-Shot-Generalisierungsfähigkeit durch ein neuartiges Netzwerk-Gewichts-Generierungsmodul, das eine Aufmerksamkeitsmechanismus nutzt. Wir führen umfangreiche experimentelle Validierungen durch und vergleichen dabei starke Baseline-Methoden unter Verwendung mehrerer groß angelegter Videodatensätze, darunter Videos von tanzenden Menschen, Talking-Head-Videos und Straßenszenen-Videos. Die experimentellen Ergebnisse bestätigen die Effektivität des vorgeschlagenen Rahmens bei der Überwindung der beiden Einschränkungen bestehender Vid2Vid-Ansätze.