Command Palette
Search for a command to run...
Untersuchung der Bedingungen für Diffusionsmodelle in der roboterbasierten Steuerung
Heeseong Shin Byeongho Heo Dongyoon Han Seungryong Kim Taekyung Kim

Abstract
Obwohl vortrainierte visuelle Darstellungen die Nachahmungslernverfahren erheblich vorangebracht haben, sind sie oft aufgabennichtspezifisch, da sie während des Lernens der Politik unverändert bleiben. In dieser Arbeit untersuchen wir, wie vortrainierte Text-zu-Bild-Diffusionsmodelle genutzt werden können, um aufgabenspezifische visuelle Darstellungen für die Steuerung von Robotern zu erzeugen, ohne das Modell selbst zu feintunen. Wir stellen jedoch fest, dass die naiv anzuwendenden textbasierten Bedingungen – eine erfolgreiche Strategie in anderen Bereich der Bildverarbeitung – in Steuerungsaufgaben nur geringe oder gar negative Verbesserungen erzielen. Wir weisen dies auf die Domänenlücke zwischen den Trainingsdaten des Diffusionsmodells und den Umgebungen der robotischen Steuerung zurück, was uns veranlasst, Bedingungen vorzuschlagen, die die spezifischen, dynamischen visuellen Informationen berücksichtigen, die für die Steuerung erforderlich sind. Dementsprechend präsentieren wir ORCA, das lernbare Aufgaben-Prompts einführt, die sich an die Steuerungsumgebung anpassen, sowie visuelle Prompts, die feinabgestimmte, frame-spezifische Details erfassen. Durch die Einführung neuer, aufgabenspezifischer Bedingungen, die eine anpassungsfähige Darstellung ermöglichen, erreicht unser Ansatz state-of-the-art Ergebnisse auf verschiedenen Benchmarks für robotische Steuerung und übertrifft signifikant vorherige Methoden.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.