Command Palette
Search for a command to run...
Lernen Während Der Implementierung
Datum
Paper-URL
Das Konzept des Lernens während des Einsatzes (Learning While Deploying, LWD) wurde 2026 von Forschern des Shanghai Institute for Innovation, von AIZ Robotics und der Columbia University vorgeschlagen. Die zugehörigen Forschungsergebnisse wurden in einem Fachartikel veröffentlicht. Lernen während des Einsatzes: Reinforcement Learning im Flottenmaßstab für generalistische Roboterstrategien .
LWD ist ein skalierbares Framework, das den Einsatz großer Roboterflotten mit Offline-zu-Online-Reinforcement-Learning kombiniert. Es adressiert primär die Herausforderungen von „Verteilungsverschiebung und Long-Tail-Fehlern“ in allgemeinen Bild-Sprache-Aktions-Modellen (VLA), die Aufgaben in komplexen realen Umgebungen ausführen, da sie ausschließlich auf offline vortrainierten Daten basieren. Dieses Framework führt Distributed Implicit Value Learning (DIVL) und Q-Learning basierend auf adjoint matching (QAM) ein, um kontinuierlich Daten aus autonomen Roboterinteraktionen und menschlichen Eingriffen in realen Umgebungen zu aggregieren. Dies ermöglicht eine stabile Iteration des Policy-Modells, ohne vom tatsächlichen Anwendungsszenario abzuweichen. Forschungsergebnisse zeigen, dass LWD den durch spärliche Belohnungen verursachten Lernengpass effektiv überwindet und die Anpassungsfähigkeit und Generalisierungsfähigkeit von Allzweckmodellen in verschiedenen realen physikalischen Umgebungen signifikant verbessert. In acht komplexen, realweltlichen Szenarien, darunter das Einräumen von Supermarktregalen, das Aufbrühen von Tee und das Mixen von Cocktails, erreichte ein einziges universelles Policy-Modell eine durchschnittliche Erfolgsquote von bis zu 951 TP3T und reduzierte die Ausführungszeit von Langzeitaufgaben signifikant.
KI mit KI entwickeln
Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.