Command Palette
Search for a command to run...
Richten Sie Ihre Politiken aus! Verbesserung von Diffusions- oder Flussbasierten Roboterpolicen durch verteilungsbasierte Zusammensetzung zur Testzeit

Abstract
Diffusionsbasierte Modelle für die robotische Steuerung, einschließlich Vision-Sprache-Aktion (VLA)- und Vision-Aktion (VA)-Politiken, haben erhebliche Fähigkeiten demonstriert. Dennoch wird ihre Weiterentwicklung durch die hohen Kosten begrenzt, die mit der Erhebung großer interaktiver Datensätze verbunden sind. In dieser Arbeit wird ein alternativer Ansatz vorgestellt, um die Leistung von Politiken zu verbessern, ohne zusätzliche Modelltrainings durchführen zu müssen. Überraschenderweise zeigen wir, dass zusammengesetzte Politiken die Leistung jeder einzelnen Elternpolitik übersteigen können. Unser Beitrag ist dreifach: Erstens legen wir eine theoretische Grundlage dar, die zeigt, dass die konvexe Kombination von Verteilungsscores mehrerer Diffusionsmodelle ein überlegenes einstufiges funktionaler Zielsetzung erzeugen kann, das die einzelnen Scores übertrifft. Anschließend wird eine Grönwall-artige Abschätzung verwendet, um zu zeigen, dass dieser einstufige Verbesserungseffekt sich über gesamte Generierungsverläufe fortsetzt und somit systematische Leistungssteigerungen bewirkt. Zweitens schlagen wir aufgrund dieser Ergebnisse General Policy Composition (GPC) vor, eine trainingsfreie Methode, die die Leistung durch die Kombination der Verteilungsscores mehrerer vortrainierter Politiken mittels konvexer Kombination und Suche zur Testzeit verbessert. GPC ist vielseitig einsetzbar und ermöglicht die plug-and-play-Komposition heterogener Politiken, einschließlich VA- und VLA-Modelle sowie solcher basierend auf Diffusion oder Flow-Matching, unabhängig von ihren visuellen Eingabemodalitäten. Drittens liefern wir umfassende empirische Validierung. Experimente an den Benchmarks Robomimic, PushT und RoboTwin sowie Evaluierungen in der realen Welt bestätigen, dass GPC die Leistung und Anpassungsfähigkeit über eine breite Palette von Aufgaben hinweg konsistent verbessert. Eine weitere Analyse alternativer Kompositionsoperatoren und Gewichtungsstrategien liefert Einblicke in die zugrundeliegenden Mechanismen des Erfolgs von GPC. Diese Ergebnisse etablieren GPC als eine einfache, jedoch wirksame Methode zur Verbesserung der Steuerungsleistung durch Ausnutzung bestehender Politiken.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.