HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA Cosmos Predict 2.5 mit LoRA für Robotik-Video

NVIDIA hat ein Verfahren zur effizienten Feinabstimmung des Weltmodells Cosmos Predict 2.5 veröffentlicht, das speziell für die Generierung physikalisch plausibler Roboter-Videos entwickelt wurde. Das Ziel besteht darin, das große Grundmodell an spezifische Domänen wie Roboter-Manipulation anzupassen, ohne die aufwendigen Kosten und Risiken eines vollständigen Trainings in Kauf zu nehmen. Da das Sammeln echter Roboter-Daten zeitintensiv und teuer ist, ermöglicht die Nutzung synthetischer Trajektorien, die mit einem feinabgestimmten Videomodell generiert werden, eine skalierbare Alternative. Um eine Überanpassung an die neuen Daten und den Verlust allgemeinen Wissens zu verhindern, verzichten die Entwickler auf eine vollständige Aktualisierung der Modellgewichte. Stattdessen kommen Parameter-effiziente Feinabstimmungstechniken wie LoRA (Low-Rank Adaptation) und DoRA (Directional LoRA) zum Einsatz. Diese Methoden injizieren kleine, trainierbare Adaptermodule in das eingefrorene Basismodell. Dadurch werden der Speicherbedarf minimiert und die Adapter-Dateien bleiben klein und portabel. Dies macht es möglich, das Modell auf einer einzigen GPU zu trainieren und bei der Inferenz flexibel zwischen verschiedenen Domänen-Adaptern zu wechseln. Das technische Verfahren nutzt die Bibliotheken Diffusers und Accelerate. Der Trainingsprozess beginnt mit dem Laden des Cosmos-Predict-Modells, wobei der VAE (Video Autoencoder), der Textencoder und der Diffusion Transformer (DiT) eingefroren bleiben. Die LoRA-Adapter werden ausschließlich in den Aufmerksamkeitsprojektionen und Feedforward-Schichten des DiT integriert. Für die numerische Stabilität bei der Mischpräzision werden die trainierbaren Parameter in den Adaptern auf Float32 hochskaliert, während der Rest des Modells im halben Float-Format (BF16) bleibt. Der Lernfortschritt wird über eine Rectified-Flow-Funktion optimiert, bei der das Modell lernt, die Geschwindigkeit vorherzusagen, die ein verrauschtes Signal in den ursprünglichen, sauberen Datenwert überführt. Als Optimierungsalgorithmus kommt AdamW mit einem linearen Zeitplan zum Einsatz. Für die Inferenz können die trainierten Adapterlasten in das Basismodell eingefügt werden, um die Inferenzgeschwindigkeit zu maximieren. Die Qualität der generierten Videos wird anschließend durch geometrische Metriken wie den Sampson-Fehler sowie durch Bewertungen mittels einer großen Sprache (LLM) geprüft. Die LLM-Analyse konzentriert sich auf die physikalische Plausibilität und die Einhaltung der Eingabeinstruktionen, etwa die korrekte Verwendung von Händen oder Objekten. Die Ergebnisse zeigen, dass eine Feinabstimmung bereits nach 100 Epochen, was auf einem Cluster aus acht H100-GPUs etwa 2,5 Stunden Training dauert, zu deutlichen Verbesserungen führt. Sowohl LoRA als auch DoRA liefern vergleichbare Ergebnisse in Bezug auf geometrische Konsistenz und physikalische Realistik. Ein höherer Rang von 32 verbessert dabei vor allem die Einhaltung komplexer Instruktionen, etwa die Unterscheidung zwischen linkem und rechtem Arm, während niedrigere Ränge für die geometrische Stabilität ausreichen. DoRA kann insbesondere bei sehr niedrigen Rängen oder Instabilitäten eine stabilere Konvergenz bieten, ist für den allgemeinen Einsatz jedoch nicht zwingend erforderlich. Dieses Vorgehen etabliert einen effizienten Weg, um synthetische Trainingsdaten für Roboteragenten in großem Maßstab zu erzeugen.

Verwandte Links

NVIDIA Cosmos Predict 2.5 mit LoRA für Robotik-Video | Aktuelle Beiträge | HyperAI