EgoTwin: Träumender Körper und Perspektive aus erster Person

Obwohl die exzentrische Video-Synthese große Fortschritte erzielt hat, bleibt die generation von egozentrischen Videos weitgehend unerforscht. Dies erfordert die Modellierung von In-First-Person-Perspektive-Inhalten sowie der durch die Körperbewegungen des Trägers verursachten Kamerabewegungsmuster. Um diese Lücke zu schließen, führen wir eine neue Aufgabe zur gemeinsamen Generierung egozentrischer Videos und menschlicher Bewegungen ein, die zwei zentrale Herausforderungen mit sich bringt: 1) Sichtpunkt-Ausrichtung: Die Kamerabahn im generierten Video muss präzise mit der Kopfbahn übereinstimmen, die aus der menschlichen Bewegung abgeleitet wird; 2) Kausale Wechselwirkung: Die synthetisierte menschliche Bewegung muss kausal mit den beobachteten visuellen Dynamiken in benachbarten Videobildern übereinstimmen. Um diese Herausforderungen zu bewältigen, stellen wir EgoTwin vor – einen gemeinsamen Video-Bewegungs-Generierungs-Framework, der auf der Diffusions-Transformer-Architektur basiert. Insbesondere führt EgoTwin eine kopfzentrierte Bewegungsrepräsentation ein, die die menschliche Bewegung an den Kopfgelenk fixiert, sowie einen kybernetik-inspirierten Interaktionsmechanismus, der die kausale Wechselwirkung zwischen Video und Bewegung explizit in den Aufmerksamkeitsoperationen erfasst. Zur umfassenden Bewertung sammeln wir eine großskalige Echtwelt-Datenbank synchronisierter Text-Video-Bewegungs-Tripel und entwickeln neuartige Metriken zur Beurteilung der Konsistenz zwischen Video und Bewegung. Umfangreiche Experimente belegen die Wirksamkeit des EgoTwin-Frameworks.