Einzelne Aufnahme der Bewegungsvervollständigung mit Transformer

Die Bewegungsvervollständigung stellt ein herausforderndes und seit langem diskutiertes Problem dar, das für Anwendungen in Film und Gaming von großer Bedeutung ist. Für verschiedene Szenarien der Bewegungsvervollständigung (Zwischenbewegungen, Lückenfüllung und Vermischung) haben die meisten bisherigen Ansätze die jeweiligen Vervollständigungsprobleme jeweils spezifisch und fallweise behandelt. In dieser Arbeit stellen wir eine einfache, jedoch wirksame Methode vor, die mehrere Aufgaben der Bewegungsvervollständigung innerhalb eines einheitlichen Rahmens löst und dabei eine neue State-of-the-Art-Genauigkeit unter verschiedenen Evaluierungsszenarien erreicht. Inspiriert durch den jüngsten großartigen Erfolg von attentionbasierten Modellen betrachten wir die Vervollständigung als ein Sequenz-zu-Sequenz-Vorhersageproblem. Unser Ansatz besteht aus zwei Modulen: einem standardisierten Transformer-Encoder mit Selbst-Attention, der langfristige Abhängigkeiten der Eingabebewegungen lernt, sowie einem trainierbaren Mischungs-Embedding-Modul, das zeitliche Informationen modelliert und Schlüsselbilder unterscheidet. Unser Verfahren kann nicht-autoregressiv arbeiten und ermöglicht die gleichzeitige Vorhersage mehrerer fehlender Frames in einer einzigen Vorwärtsdurchlauf in Echtzeit. Abschließend demonstrieren wir die Wirksamkeit unseres Ansatzes anhand von Anwendungen im Bereich Musik-Tanz.