Skelettbasierte Generierung von Gliedmaßenbewegungen

Diese Arbeit unternimmt erstmals den Versuch, eine artikulierte Bewegungssequenz des Menschen aus einem einzelnen Bild zu generieren. Einerseits nutzen wir gepaarte Eingaben, die menschliche Skelettinformationen als Bewegungsembedding und ein einzelnes Bild eines Menschen als Erscheinungsreferenz enthalten, um neue Bewegungsbilder auf Basis der konditionierten GAN-Infrastruktur zu erzeugen. Andererseits wird ein Triplettenverlust (triplet loss) eingesetzt, um die Erscheinungsglattheit zwischen aufeinanderfolgenden Bildern zu gewährleisten. Da das vorgeschlagene Framework in der Lage ist, sowohl den Erscheinungsraum des Bildes als auch den artikulierten/kinematischen Bewegungsraum gemeinsam auszunutzen, erzeugt es realistische artikulierte Bewegungssequenzen, im Gegensatz zu den meisten früheren Video-Generierungsmethoden, die verschwommene Bewegungseffekte liefern. Wir testen unser Modell anhand zweier menschlicher Aktionsdatensätze, einschließlich KTH und Human3.6M, und das vorgeschlagene Framework liefert vielversprechende Ergebnisse für beide Datensätze.