InterMask: 3D-Menschliche Interaktionserzeugung durch kollaboratives maskiertes Modellieren

Die Erstellung realistischer 3D-Mensch-Mensch-Interaktionen aus textuellen Beschreibungen bleibt eine herausfordernde Aufgabe. Bestehende Ansätze, die in der Regel auf Diffusionsmodellen basieren, erzeugen oft Ergebnisse, die an Realismus und Genauigkeit mangeln. In dieser Arbeit stellen wir InterMask vor, ein neues Framework zur Generierung von Mensch-Mensch-Interaktionen unter Verwendung einer kollaborativen maskierten Modellierung im diskreten Raum. InterMask verwandelt zunächst jede Bewegungssequenz mit Hilfe eines VQ-VAE in eine 2D-diskrete Bewegungstokenkarte. Im Gegensatz zu traditionellen 1D-VQ-Tokenkarten behält es feingranulare räumlich-zeitliche Details besser bei und fördert die räumliche Wahrnehmung innerhalb jedes Tokens.Auf dieser Darstellung aufbauend nutzt InterMask einen generativen maskierten Modellierungsrahmen, um die Tokens zweier interagierender Individuen kollaborativ zu modellieren. Dies wird durch die Anwendung einer speziell entwickelten Transformer-Architektur erreicht, die darauf ausgelegt ist, komplexe räumlich-zeitliche Abhängigkeiten zu erfassen. Während des Trainings werden die Bewegungstokens beider Individuen zufällig maskeiert und das Modell lernt sie vorherzusagen. Für die Inferenz startet es mit vollständig maskeierten Sequenzen und füllt schrittweise die Tokens für beide Individuen aus.Mit seiner verbesserten Bewegungsdarstellung, der spezialisierten Architektur und der effektiven Lernstrategie erreicht InterMask standesüberragende Resultate und erzeugt hochgenaue sowie vielfältige Mensch-Mensch-Interaktionen. Es übertrifft frühere Methoden und erreicht einen FID-Wert von $5{,}154$ (im Vergleich zu $5{,}535$ von in2IN) im InterHuman-Datensatz sowie $0{,}399$ (im Vergleich zu $5{,}207$ von InterGen) im InterX-Datensatz. Zudem unterstützt InterMask nahtlos die Generierung von Reaktionen ohne Notwendigkeit für ein Neudesign oder Feinabstimmung des Modells.