Un modèle de comportement robotique révolutionnaire réduit de 80 % les données nécessaires pour apprendre de nouvelles tâches
Le Toyota Research Institute (TRI) a récemment publié une étude sur les « grands modèles de comportement » (LBMs, Large Behavior Models), une avancée qui pourrait révolutionner la manière dont les robots apprennent. Selon les résultats, ces modèles permettent aux robots de réduire de 80 % la quantité de données nécessaire pour apprendre de nouvelles tâches, et un seul modèle peut maîtriser des centaines de compétences différentes. Cette recherche, intitulée A Careful Examination of Large Behavior Models for Multitask Dexterous Manipulation, a été publiée sur arXiv. Russ Tedrake, vice-président du TRI et professeur au Massachusetts Institute of Technology (MIT), a partagé sur les réseaux sociaux : « Les LBMs fonctionnent vraiment ! Avec une augmentation des données de pré-entraînement, nous observons des améliorations régulières et statistiquement significatives. » Contrairement aux méthodes traditionnelles, qui nécessitent une programmation spécifique pour chaque tâche et sont lentes et peu fiables, les LBMs s'inspirent de l'architecture des grands modèles de langage (LLMs), mais sont optimisés pour les actions physiques des robots. Leur architecture repose sur des modèles de diffusion et des Transformers, intégrant des données visuelles provenant de plusieurs caméras (dont celles fixées sur les poignets du robot et des caméras scéniques), des informations sur la posture et la position du robot, ainsi que des instructions fournies en langage naturel par un humain. Ces données sont combinées pour générer une séquence d’actions précises et cohérentes, couvrant 16 étapes futures (soit environ 1,6 seconde). Les chercheurs ont entraîné plusieurs LBMs sur un ensemble de données comprenant près de 1 700 heures de démonstrations robotiques. Ces données proviennent notamment de 468 heures de téléopération avec un bras robotique à deux mains, de 45 heures de données simulées, de 32 heures de données du système UMI (Universal Manipulation Interface), et de 1 150 heures de données issues du dataset Open X-Embodiment. Pour évaluer les performances, ils ont mené 1 800 tests en environnement réel et plus de 47 000 tests en simulation, couvrant 29 tâches différentes. Le matériel utilisé était basé sur un système de deux bras robotiques équipé de six caméras. Les caractéristiques visuelles étaient extraites grâce à un modèle CLIP pré-entraîné, tandis que les descriptions textuelles étaient traitées par un encodeur CLIP. Ces informations étaient combinées avec des données de perception corporelle et des encodages de pas de temps de diffusion pour former les observations. Les actions étaient ensuite générées par un modèle DDIM (Denoising Diffusion Implicit Models), qui produit des séquences d’actions en partant d’un bruit gaussien et en effectuant des itérations successives. Trois résultats clés ont été identifiés. Premièrement, les LBMs ajustés (fine-tuned) surpassent systématiquement les modèles de base dédiés à une seule tâche, qu’il s’agisse de simulations ou d’environnements réels. Deuxièmement, les LBMs montrent une meilleure robustesse face aux variations des conditions d’entrée. Troisièmement, leur capacité à réduire drastiquement la quantité de données nécessaires pour apprendre de nouvelles tâches est particulièrement marquée. En simulation, il suffit de moins de 30 % des données pour atteindre des performances comparables à celles d’un modèle entraîné à partir de zéro. En environnement réel, les LBMs utilisent seulement 15 % des données pour dépasser les modèles classiques. La recherche a également confirmé une loi d’échelle : plus le volume de données de pré-entraînement est important, meilleure est la performance du modèle. Aucune discontinuité ou seuil critique n’a été observé, ce qui suggère que l’expansion des données reste bénéfique. Les tests incluaient également des tâches complexes, comme la découpe d’une pomme, où le robot doit récupérer un couteau, le dégager, couper la pomme, puis le nettoyer et le remettre en place. Les LBMs ont démontré des performances supérieures à celles des méthodes traditionnelles. Un autre point important est l’accent mis sur la rigueur statistique dans l’évaluation. Les chercheurs soulignent que de nombreux travaux sur l’apprentissage robotique mesurent parfois des bruits statistiques plutôt que des effets réels. Pour pallier cela, ils ont utilisé une analyse bayésienne et une méthode CLD (Compact Letter Display) pour évaluer la significativité statistique. Cette étude ouvre la voie à un cycle de performance améliorée grâce à l’accumulation de données. Cependant, elle souligne aussi des limites, notamment la variabilité des modèles non ajustés, liée à des contraintes dans leur capacité à interpréter les instructions linguistiques. Des prototypes plus grands, combinant vision et langage, montrent des perspectives prometteuses, mais nécessitent encore des validations rigoureuses. En résumé, les LBMs marquent une avancée majeure dans l’apprentissage robotique, offrant une approche plus générale, plus robuste et moins exigeante en données.