Google DeepMind präsentiert bei CVPR 2025 Motion Prompting: Neue Methode zur genauen Steuerung von Videos.
Bei CVPR 2025 präsentierten Forscher von Google DeepMind, der University of Michigan und der Brown University eine bahnbrechende Methode namens "Motion Prompting", die es ermöglicht, Videos mit spezifischen Bewegungspfaden zu steuern. Diese Technik nutzt "Bewegungsaufgaben", eine flexible Darstellung von Bewegungen, die sowohl spärlich als auch dicht sein kann, um ein vorab trainiertes Video-Diffusion-Modell zu leiten. Ein wesentlicher Fortschritt ist das "Bewegungsaufgabenerweiterungssystem", das hochwertige Nutzeranfragen wie Mausbewegungen in detaillierte Bewegungsanweisungen für das Modell übersetzt. Dies ermöglicht es einem einzelnen, vereinheitlichten Modell, eine Vielzahl von Aufgaben zu erfüllen, darunter präzise Objekt- und Kamerasteuerung, Bewegungsübertragung von einem Video auf ein anderes und interaktive Bildbearbeitung, ohne für jede spezifische Fähigkeit neu trainiert werden zu müssen. Die Entwicklung von Motion Prompting überwindet die Grenzen von Textanfragen, die oft zu vage sind, um komplexe Bewegungen genau zu beschreiben. Zum Beispiel ist eine Anfrage wie "ein Bär dreht schnell seinen Kopf" auf viele Interpretationen offen. Wie schnell ist "schnell"? Welchen genauen Weg nimmt der Kopf? Mit Motion Prompting können Nutzer die Bewegung selbst definieren, was den Einstieg in expressivere und intendiertere Videoinhalte erleichtert. Der Kern dieses Forschungsprojekts ist das Konzept der "Bewegungsaufgabe". Die Wissenschaftler stellten fest, dass spatio-temporal spärliche oder dichte Bewegungspfade – im Wesentlichen die Verfolgung von Punkten über die Zeit – eine ideale Art und Weise sind, um alle Arten von Bewegungen darzustellen. Dieses flexible Format kann alles von subtilen Haarflattern bis hin zu komplexen Kamerabewegungen erfassen. Um dies zu ermöglichen, trainierten die Forscher ein ControlNet-Adapter auf einem leistungsstarken, vorab trainierten Video-Diffusion-Modell namens Lumiere. Das ControlNet wurde anhand einer riesigen internen Datensammlung von 2,2 Millionen Videos mit detaillierten Bewegungsspurdaten, die durch einen Algorithmus namens BootsTAP extrahiert wurden, trainiert. Dieses vielfältige Training ermöglicht es dem Modell, eine breite Palette von Bewegungen zu verstehen und zu generieren, ohne für jede Aufgabe spezialisierte Ingenieurarbeit zu benötigen. Das System kann einfache, hochwertige Nutzeingaben in detaillierte, semi-dichte Bewegungsaufgaben übersetzen, was eine Vielzahl von intuitiven Anwendungen ermöglicht: Interaktion mit einem Bild: Nutzer können einfach die Maus über ein Objekt in einem stillen Bild ziehen, um es bewegen zu lassen. Zum Beispiel kann ein Nutzer den Kopf eines Papageis ziehen, um ihn drehen zu lassen, oder mit den Haaren einer Person "spielen". Dabei zeigt sich, dass das Modell physikalisch plausible Bewegungen generiert, wie beispielsweise Sand, der realistisch zerstreut wird, wenn mit dem Cursor darauf "gedrückt" wird. Objekt- und Kamerasteuerung: Indem Mausbewegungen als Anweisungen zur Manipulation geometrischer Primitiver (wie unsichtbarer Kugeln) interpretiert werden, können Nutzer feingranulare Steuerung erzielen, z.B. den Kopf einer Katze präzise drehen. Ähnlich können komplizierte Kamerabewegungen wie die Umrundung einer Szene durch Schätzung der Tiefeninformation des ersten Rahmens und Projektion des gewünschten Kamera-Pfades generiert werden. Das Modell kann sogar verschiedene Aufgaben gleichzeitig verbinden, um sowohl ein Objekt als auch die Kamera zu steuern. Bewegungsübertragung: Diese Technik ermöglicht es, Bewegungen aus einem Quellvideo auf ein völlig anderes Subjekt in einem stillen Bild zu übertragen. Zum Beispiel demonstrierten die Forscher, wie sie die Kopfbewegungen einer Person auf einen Makaken übertrugen, um das Tier effektiv zu "bespielen". Um ihre Methode zu validieren, führten die Forscher umfangreiche quantitative Bewertungen und menschliche Studien durch, wobei sie ihr Modell mit neueren Modellen wie Image Conductor und DragAnything verglichen. In fast allen Metriken, einschließlich Bildqualität (PSNR, SSIM) und Bewegungsgenauigkeit (EPE), übertraf ihr Modell die Baseline-Modelle. Eine menschliche Studie bestätigte diese Ergebnisse weiter. Als Teilnehmer gebeten wurden, zwischen Videos, die durch Motion Prompting und anderen Methoden generiert wurden, zu wählen, bevorzugten sie die Ergebnisse des neuen Modells wegen deren besseren Anpassung an die Bewegungsanweisungen, realistischeren Bewegungen und höherer Gesamtvisuellen Qualität. Die Forscher sind ehrlich über die aktuellen Limitierungen des Systems. Manchmal kann das Modell unnatürliche Ergebnisse produzieren, wie zum Beispiel die unnatürliche Streckung eines Objekts, wenn Teile davon fälschlicherweise mit dem Hintergrund verbunden werden. Dennoch sehen sie in diesen Fehlern eine wertvolle Möglichkeit, das zugrunde liegende Videomodell zu untersuchen und Schwachstellen in dessen "Verständnis" der physischen Welt zu identifizieren. Diese Forschung markiert einen wichtigen Schritt hin zu wirklich interaktiven und steuerbaren generativen Videomodellen. Durch den Fokus auf das fundamentale Element der Bewegung haben die Wissenschaftler ein vielseitiges und mächtiges Werkzeug entwickelt, das eines Tages ein Standard für Profis und Kreativen sein könnte, die das volle Potenzial von KI in der Videoproduktion nutzen möchten. Die Ergebnisse sind derzeit nicht in Echtzeit verfügbar und dauern etwa 10 Minuten. Trotzdem wird das Potential von Motion Prompting von Branchenexperten sehr geschätzt. Es wird erwartet, dass diese Technik in Zukunft die Videoproduktion in Bereichen wie Werbung, Filmproduktion und interaktiver Unterhaltung revolutionieren wird. Google DeepMind, bekannt für seine fortschrittliche KI-Forschung, hat wieder einmal gezeigt, dass es an der Spitze der technologischen Innovation steht.