Make-An-Animation: Großskalige, textbasierte Generierung von 3D-Menschenbewegungen

Die textgesteuerte Generierung menschlicher Bewegungen hat aufgrund ihrer vielfältigen Anwendungen in Bereichen wie Animation und Robotik erhebliches Interesse geweckt. In jüngster Zeit haben Diffusionsmodelle zur Bewegungsgenerierung zu einer erheblichen Verbesserung der Qualität generierter Bewegungen beigetragen. Allerdings sind bestehende Ansätze durch ihre Abhängigkeit von vergleichsweise kleinen Bewegungsaufzeichnungsdatensätzen eingeschränkt, was zu einer schlechten Leistung bei vielfältigeren, „im Wilden“ formulierten Eingaben führt. In diesem Artikel stellen wir Make-An-Animation vor, ein textbedingtes Modell zur Generierung menschlicher Bewegungen, das eine größere Vielfalt an Körperhaltungen und Textprompten aus großskaligen Bild-Text-Datensätzen lernt und damit eine signifikante Verbesserung der Leistung gegenüber früheren Ansätzen ermöglicht. Make-An-Animation wird in zwei Phasen trainiert: Zunächst wird es auf einem sorgfältig ausgewählten, großskaligen Datensatz aus (Text, statische Pseudopose)-Paaren trainiert, die aus Bild-Text-Datensätzen extrahiert wurden. Anschließend erfolgt eine Feinabstimmung auf Bewegungsaufzeichnungsdaten, wobei zusätzliche Schichten hinzugefügt werden, um die zeitliche Dimension zu modellieren. Im Gegensatz zu früheren Diffusionsmodellen zur Bewegungsgenerierung verwendet Make-An-Animation eine U-Net-Architektur, die an jüngste Modelle zur Text-zu-Video-Generierung angelehnt ist. Menschliche Bewertungen zur Realitätsnähe der Bewegungen und zur Übereinstimmung mit dem Eingabetext zeigen, dass unser Modell eine state-of-the-art-Leistung bei der Text-zu-Bewegung-Generierung erreicht.