Est-ce que la diversité suffit pour une manipulation robotique à grande échelle ?

L'augmentation des données a conduit à des succès remarquables dans les modèles de base pour le traitement du langage naturel (NLP) et la vision par ordinateur (CV), mais les principes d'une augmentation efficace des données en manipulation robotique restent insuffisamment compris. Dans cette étude, nous examinons le rôle subtil de la diversité des données dans l'apprentissage robotique en analysant trois dimensions critiques : la tâche (quoi faire), l'incarnation (quel robot utiliser) et l'expert (qui démontre), remettant en question l'intuition conventionnelle selon laquelle « plus diversifié est meilleur ». Au cours d'expériences approfondies sur différentes plateformes robotiques, nous révélons que (1) la diversité des tâches est plus critique que la quantité de démonstrations par tâche, favorisant le transfert de tâches pré-entraînées diverses vers de nouvelles situations en aval ; (2) les données de pré-entraînement multi-incarnations sont optionnelles pour le transfert cross-incarnation — les modèles entraînés sur des données mono-incarnation de haute qualité peuvent transférer efficacement vers différentes plateformes, montrant une propriété d'échelle plus souhaitable lors du fine-tuning que les modèles pré-entraînés multi-incarnation ; et (3) la diversité des experts, résultant des préférences opérationnelles individuelles et des variations stochastiques dans les démonstrations humaines, peut être perturbatrice pour l'apprentissage de politiques, avec la multimodalité de la vitesse émergeant comme un facteur clé contributif. Sur la base de ces observations, nous proposons une méthode de débiaisage de distribution pour atténuer l'ambiguïté de la vitesse, permettant au GO-1-Pro d'obtenir des gains de performance substantiels de 15 %, équivalents à l'utilisation de 2,5 fois plus de données de pré-entraînement. Collectivement, ces résultats offrent de nouvelles perspectives et fournissent des orientations pratiques sur la manière d'échelonner efficacement les ensembles de données en manipulation robotique.