HyperAIHyperAI

Command Palette

Search for a command to run...

Generative Bilder als Aktionenmodelle

Mohit Shridhar; Yat Long Lo; Stephen James

Zusammenfassung

Bildgenerierende Diffusionsmodelle wurden weiterverfeinert, um neue Fähigkeiten wie Bildbearbeitung und Neuanblicksynthese zu ermöglichen. Kann man vergleichbar Bildgenerierungsmodelle für visuomotorische Steuerung freischalten? Wir stellen GENIMA vor, einen Verhaltensklonierungsagenten, der Stable Diffusion weitertrainiert, um „Gelenkaktionen“ als Ziele auf RGB-Bildern zu „zeichnen“. Diese Bilder werden einem Controller zugeführt, der die visuellen Ziele in eine Folge von Gelenkpositionen abbildet. Wir untersuchen GENIMA anhand von 25 RLBench-Aufgaben und 9 realen Manipulationsaufgaben. Wir stellen fest, dass durch das Heben von Aktionen in den Bildraum internet-vortrainierte Diffusionsmodelle Richtlinien generieren können, die moderne visuomotorische Ansätze übertreffen, insbesondere hinsichtlich der Robustheit gegenüber Szenestörungen und der Generalisierung auf neue Objekte. Unsere Methode ist auch mit 3D-Agenten wettbewerbsfähig, obwohl sie keine Vorwissen wie Tiefe, Keypoints oder Bewegungsplaner besitzt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp