HyperAIHyperAI
vor 11 Tagen

Fg-T2M: Feinabgestimmte textgesteuerte Generierung menschlicher Bewegung mittels Diffusionsmodell

Yin Wang, Zhiying Leng, Frederick W. B. Li, Shun-Cheng Wu, Xiaohui Liang
Fg-T2M: Feinabgestimmte textgesteuerte Generierung menschlicher Bewegung mittels Diffusionsmodell
Abstract

Die textgesteuerte Generierung menschlicher Bewegungen im Bereich des Computer Vision ist sowohl von großer Bedeutung als auch herausfordernd. Derzeitige Methoden sind jedoch auf die Erzeugung entweder deterministischer oder ungenauer Bewegungssequenzen beschränkt und können die erforderlichen zeitlichen und räumlichen Beziehungen nicht effektiv steuern, um einer gegebenen Textbeschreibung gerecht zu werden. In dieser Arbeit präsentieren wir eine feinabgestimmte Methode zur Generierung hochwertiger, bedingter menschlicher Bewegungssequenzen, die präzise Textbeschreibungen unterstützen. Unser Ansatz besteht aus zwei zentralen Komponenten: 1) einem sprachstrukturunterstützten Modul, das genaue und vollständige Sprachmerkmale konstruiert, um die Textinformationen optimal auszunutzen; und 2) einem kontextbewussten, schrittweisen Inferenzmodul, das benachbarte und globale semantische sprachliche Merkmale aus flachen und tiefen Graphen-Neuralen Netzen lernt, um eine mehrstufige Inferenz zu ermöglichen. Experimente zeigen, dass unser Ansatz textgesteuerte Bewegungsgenerierungsmethoden auf den Datensätzen HumanML3D und KIT übertrifft und visuell überzeugendere Bewegungen im Einklang mit den Textbedingungen erzeugt.

Fg-T2M: Feinabgestimmte textgesteuerte Generierung menschlicher Bewegung mittels Diffusionsmodell | Neueste Forschungsarbeiten | HyperAI