RoboLLM : Tâches de vision robotique ancrées dans des grands modèles linguistiques multimodaux

Les applications de vision robotique nécessitent souvent une large gamme de tâches de perception visuelle, telles que la détection d'objets, la segmentation et l'identification. Bien que des progrès considérables aient été réalisés dans chacune de ces tâches individuelles, l'intégration de modèles spécialisés dans une chaîne de traitement visuel unifiée soulève des défis ingénierie importants et des coûts élevés. Récemment, les Modèles de Langage à Grandes Échelles Multimodaux (MLLM) sont apparus comme de nouveaux noyaux pour diverses tâches en aval. Nous soutenons que l'exploitation des capacités d'apprentissage préalable des MLLM permet de concevoir un cadre simplifié, réduisant ainsi la nécessité d'encodeurs spécifiques à chaque tâche. En particulier, les connaissances préentraînées à grande échelle présentes dans les MLLM facilitent le fine-tuning pour les tâches de vision robotique en aval et conduisent à des performances supérieures. Nous introduisons le cadre RoboLLM, basé sur un architecture BEiT-3, afin de traiter toutes les tâches de perception visuelle du défi ARMBench — un ensemble de données à grande échelle dédié à la manipulation robotique dans des scénarios réels de entrepôts. RoboLLM surpasse non seulement les méthodes de référence existantes, mais réduit également de manière significative la charge ingénierie liée au choix et au réglage des modèles. Le code source est disponible publiquement à l'adresse suivante : https://github.com/longkukuhi/armbench.