HyperAIHyperAI
vor 2 Monaten

BAD: Bidirektionale autoregressive Diffusion für die Text-zu-Bewegung-Generierung

Hosseyni, S. Rohollah ; Rahmani, Ali Ahmad ; Seyedmohammadi, S. Jamal ; Seyedin, Sanaz ; Mohammadi, Arash
BAD: Bidirektionale autoregressive Diffusion für die Text-zu-Bewegung-Generierung
Abstract

Autoregressive Modelle zeichnen sich durch die Modellierung sequentieller Abhängigkeiten unter der Einhaltung kausaler Restriktionen aus. Aufgrund ihrer einseitigen Natur haben sie jedoch Schwierigkeiten, komplexe bidirektionale Muster zu erfassen. Im Gegensatz dazu nutzen maskenbasierte Modelle den bidirektionalen Kontext, was eine reichhaltigere Modellierung von Abhängigkeiten ermöglicht. Allerdings gehen sie während der Vorhersage oft von der Unabhängigkeit der Token aus, was die Modellierung sequentieller Abhängigkeiten beeinträchtigt. Zudem können die durch Maskierung oder Absorption verursachten Verfälschungen der Sequenzen unnatürliche Verzerrungen einführen und den Lernprozess erschweren. Um diese Probleme zu lösen, schlagen wir Bidirectional Autoregressive Diffusion (BAD) vor, einen neuen Ansatz, der die Stärken autoregressiver und maskenbasierter generativer Modelle vereint. BAD verwendet eine permutationsbasierte Verfälschungstechnik, die die natürliche Sequenzstruktur beibehält und gleichzeitig durch randomisierte Ordnung kausale Abhängigkeiten erzwingt. Dies ermöglicht es, sowohl sequentielle als auch bidirektionale Beziehungen effektiv zu erfassen. Umfassende Experimente zeigen, dass BAD bei der Text-zu-Bewegungs-Generierung bessere Ergebnisse liefert als autoregressive und maskenbasierte Modelle, was auf eine neue Vortrainingsstrategie für die Sequenzmodellierung hinweist. Der Code für BAD ist unter https://github.com/RohollahHS/BAD verfügbar.

BAD: Bidirektionale autoregressive Diffusion für die Text-zu-Bewegung-Generierung | Neueste Forschungsarbeiten | HyperAI