Tiefe Video-Generierung, -Vorhersage und -Vervollständigung von menschlichen Bewegungssequenzen

Aktuelle Ergebnisse des tiefen Lernens im Bereich der Videogenerierung sind begrenzt, während es erst wenige erste Ergebnisse zur Videovorhersage gibt und keine relevanten signifikanten Ergebnisse zur Videovervollständigung vorliegen. Dies ist auf die schwere Fehlstellung, die diesen drei Problemen inhärent ist, zurückzuführen. In dieser Arbeit konzentrieren wir uns auf Videos von menschlichen Aktivitäten und schlagen ein allgemeines, zweistufiges tiefes Framework vor, um Videos von menschlichen Aktivitäten ohne oder mit einer beliebigen Anzahl von Einschränkungen zu generieren, das diese drei Probleme einheitlich behandelt: Videogenerierung ohne Eingabebilder, Videovorhersage anhand der ersten paar Bilder und Videovervollständigung anhand des ersten und letzten Bildes. Um das Problem handhabbar zu machen, trainieren wir in der ersten Stufe ein tiefes Generativmodell, das eine Folge von menschlichen Posen aus zufälligem Rauschen erzeugt. In der zweiten Stufe wird ein Netzwerk trainiert, das aus einem Skelett ein Bild generiert und somit verwendet wird, um anhand der vollständigen Folge von menschlichen Posen, die in der ersten Stufe erzeugt wurde, ein Video von menschlichen Aktivitäten zu generieren. Durch die Einführung dieser zweistufigen Strategie umgehen wir die ursprünglich schwer fälligen Probleme und erzielen erstmals hochwertige Ergebnisse bei der Videogenerierung/Videovorhersage/Videovervollständigung über viel längere Zeiträume. Wir präsentieren quantitative und qualitative Bewertungen, um zu zeigen, dass unser zweistufiger Ansatz den aktuellen Stand der Technik in den Bereichen Videogenerierung, Vorhersage und Ver-vollständigung übertreffen kann. Unsere Demonstrationsvideos können unter https://iamacewhite.github.io/supp/index.html eingesehen werden.