HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

Composez vos politiques ! Amélioration des politiques robotiques basées sur la diffusion ou sur les flux par composition au niveau de la distribution à l'heure du test

Composez vos politiques ! Amélioration des politiques robotiques basées sur la diffusion ou sur les flux par composition au niveau de la distribution à l'heure du test

Résumé

Les modèles fondés sur la diffusion pour le contrôle robotique, notamment les politiques vision-langage-action (VLA) et vision-action (VA), ont démontré des capacités remarquables. Toutefois, leur progrès est freiné par le coût élevé de la collecte de grands jeux de données d'interactions. Ce travail présente un paradigme alternatif visant à améliorer les performances des politiques sans nécessiter d'entraînement supplémentaire. Peut-être de manière surprenante, nous montrons que les politiques composées peuvent surpasser les performances de chacune des politiques parentes. Notre contribution est triple. Premièrement, nous établissons une fondation théorique démontrant que la composition convexe des scores distributionnels issus de plusieurs modèles de diffusion peut produire un objectif fonctionnel à un pas supérieur à celui de tout score individuel. Une borne du type Grönwall est ensuite utilisée pour montrer que cette amélioration à un pas se propage tout au long des trajectoires de génération, entraînant ainsi une amélioration systémique des performances. Deuxièmement, motivés par ces résultats, nous proposons General Policy Composition (GPC), une méthode sans entraînement qui améliore les performances en combinant, par une combinaison convexe, les scores distributionnels de plusieurs politiques pré-entraînées, accompagnée d'une recherche au moment de l'exécution (test-time search). GPC est polyvalente, permettant une composition plug-and-play de politiques hétérogènes, y compris des modèles VA et VLA, ainsi que des modèles fondés sur la diffusion ou le matching de flux, indépendamment de leurs modalités visuelles d'entrée. Troisièmement, nous fournissons une validation empirique étendue. Des expériences menées sur les benchmarks Robomimic, PushT et RoboTwin, ainsi que des évaluations sur robots réels, confirment que GPC améliore de manière cohérente les performances et l’adaptabilité sur une large gamme de tâches. Une analyse approfondie des opérateurs de composition alternatifs et des stratégies de pondération fournit des éclairages sur les mécanismes à l’origine du succès de GPC. Ces résultats établissent GPC comme une méthode simple mais efficace pour améliorer les performances de contrôle en exploitant les politiques existantes.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Composez vos politiques ! Amélioration des politiques robotiques basées sur la diffusion ou sur les flux par composition au niveau de la distribution à l'heure du test | Articles de recherche | HyperAI