Generative Bilder als Aktionenmodelle

Bildgenerierende Diffusionsmodelle wurden weiterverfeinert, um neue Fähigkeiten wie Bildbearbeitung und Neuanblicksynthese zu ermöglichen. Kann man vergleichbar Bildgenerierungsmodelle für visuomotorische Steuerung freischalten? Wir stellen GENIMA vor, einen Verhaltensklonierungsagenten, der Stable Diffusion weitertrainiert, um „Gelenkaktionen“ als Ziele auf RGB-Bildern zu „zeichnen“. Diese Bilder werden einem Controller zugeführt, der die visuellen Ziele in eine Folge von Gelenkpositionen abbildet. Wir untersuchen GENIMA anhand von 25 RLBench-Aufgaben und 9 realen Manipulationsaufgaben. Wir stellen fest, dass durch das Heben von Aktionen in den Bildraum internet-vortrainierte Diffusionsmodelle Richtlinien generieren können, die moderne visuomotorische Ansätze übertreffen, insbesondere hinsichtlich der Robustheit gegenüber Szenestörungen und der Generalisierung auf neue Objekte. Unsere Methode ist auch mit 3D-Agenten wettbewerbsfähig, obwohl sie keine Vorwissen wie Tiefe, Keypoints oder Bewegungsplaner besitzt.