Bewegungsrepräsentationen für bewegliche Animation

Wir schlagen neue Bewegungsrepräsentationen für die Animation von Gegenständen mit mehreren getrennten Teilen vor. In einer vollständig unsupervisierten Weise identifiziert unsere Methode die einzelnen Objektteile, verfolgt sie in einem Treiber-Video und schließt deren Bewegungen unter Berücksichtigung ihrer Hauptachsen ab. Im Gegensatz zu früheren auf Schlüsselpunkten basierenden Ansätzen extrahiert unsere Methode sinnvolle und konsistente Regionen, die Ortsangaben, Form und Pose beschreiben. Diese Regionen entsprechen semantisch relevanten und deutlich voneinander abgrenzbaren Objektteilen, die in den Frames des Treiber-Videos leichter detektiert werden können. Um eine Entkoppelung von Vordergrund und Hintergrund zu erzwingen, modellieren wir objektunabhängige globale Bewegungen mittels einer zusätzlichen affinen Transformation. Um die Animation zu erleichtern und das Eindringen der Form des Treiber-Objekts zu verhindern, entkoppeln wir in dem Regionenraum Form und Pose des Objekts. Unser Modell kann eine Vielzahl von Objekten animieren und erreicht auf bestehenden Benchmarks eine deutlich bessere Leistung als frühere Methoden. Wir präsentieren ein anspruchsvolles neues Benchmark mit hochauflösenden Videos und zeigen, dass die Verbesserung insbesondere bei beweglichen Objekten besonders ausgeprägt ist, wobei ein Nutzerpräferenzwert von 96,6 % gegenüber dem Stand der Technik erreicht wird.