Faltungsbasierte Sequenzgenerierung für die aktionsbasierte Synthese von Skelettdaten
In dieser Arbeit zielen wir darauf ab, lange Aktionen als Folgen von Skeletten zu generieren. Die generierten Sequenzen müssen kontinuierliche, sinnvolle menschliche Aktionen darstellen und gleichzeitig Kohärenz zwischen den Körperanteilen aufrechterhalten. Anstatt die Skelette sequenziell gemäß einem autoregressiven Modell zu erzeugen, schlagen wir einen Rahmenwerk vor, das die gesamte Sequenz gleichzeitig generiert, indem es von einer Folge latenten Vektoren transformiert, die aus einem Gauss-Prozess (GP) sampling stammen. Dieses Framework, benannt als Convolutional Sequence Generation Network (CSGN), modelliert gleichzeitig Strukturen in zeitlicher und räumlicher Dimension. Es erfasst die zeitliche Struktur auf mehreren Skalen durch den GP-Prior und zeitliche Faltungen; zudem etabliert es die räumliche Verbindung zwischen den latenten Vektoren und den Skelettgraphen über ein neuartiges Graph-Verfeinerungsverfahren. Es ist bemerkenswert, dass CSGN bidirektionale Transformationen zwischen dem latenten und dem beobachteten Raum ermöglicht, wodurch eine semantische Manipulation der Aktionssequenzen in verschiedenster Form möglich wird. Wir haben empirische Studien auf mehreren Datensätzen durchgeführt, darunter eine Reihe hochwertiger Tanzsequenzen, die wir selbst gesammelt haben. Die Ergebnisse zeigen, dass unser Framework in der Lage ist, lange Aktionssequenzen zu erzeugen, die sowohl über Zeitpunkte hinweg als auch zwischen den Körperanteilen kohärent sind.