Command Palette
Search for a command to run...
Apprendre En Déployant
Date
URL du document
Le concept d’apprentissage en cours de déploiement (LWD) a été proposé en 2026 par des chercheurs de l’Institut d’innovation de Shanghai, d’AIZ Robotics et de l’Université Columbia. Leurs travaux de recherche ont été publiés dans un article. Apprentissage en cours de déploiement : apprentissage par renforcement à l’échelle d’une flotte pour les politiques des robots généralistes .
LWD est un cadre évolutif combinant le déploiement de flottes à grande échelle et l'apprentissage par renforcement hors ligne vers en ligne. Il s'attaque principalement aux problèmes de « décalage de distribution et d'échec de longue traîne » rencontrés par les modèles de vision-langage-action (VLA) classiques lors de leurs interventions dans des environnements réels complexes, en raison de leur dépendance exclusive à des données pré-entraînées hors ligne. Ce cadre introduit l'apprentissage distribué de la valeur implicite (DIVL) et l'apprentissage par renforcement Q basé sur la correspondance adjointe (QAM) afin d'agréger en continu les données issues des interactions entre robots autonomes et des interventions humaines lors de déploiements réels. Ceci permet une itération stable du modèle de politique sans dévier du scénario d'application réel. Les résultats de recherche montrent que LWD surmonte efficacement le goulot d'étranglement de l'apprentissage causé par la rareté des récompenses, améliorant significativement l'adaptabilité et la capacité de généralisation des modèles génériques dans divers environnements physiques réels. Dans huit scénarios complexes du monde réel, incluant le réapprovisionnement des supermarchés, la préparation du thé et la préparation de cocktails, un seul modèle de politique à usage général a atteint un taux de réussite moyen des tâches allant jusqu'à 951 TP3T et a considérablement réduit le temps d'exécution des tâches à long terme.
Créer de l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.