HyperAIHyperAI

Command Palette

Search for a command to run...

RoboLLM : Tâches de vision robotique ancrées dans des grands modèles linguistiques multimodaux

Zijun Long George Killick Richard McCreadie Gerardo Aragon Camarasa

Résumé

Les applications de vision robotique nécessitent souvent une large gamme de tâches de perception visuelle, telles que la détection d'objets, la segmentation et l'identification. Bien que des progrès considérables aient été réalisés dans chacune de ces tâches individuelles, l'intégration de modèles spécialisés dans une chaîne de traitement visuel unifiée soulève des défis ingénierie importants et des coûts élevés. Récemment, les Modèles de Langage à Grandes Échelles Multimodaux (MLLM) sont apparus comme de nouveaux noyaux pour diverses tâches en aval. Nous soutenons que l'exploitation des capacités d'apprentissage préalable des MLLM permet de concevoir un cadre simplifié, réduisant ainsi la nécessité d'encodeurs spécifiques à chaque tâche. En particulier, les connaissances préentraînées à grande échelle présentes dans les MLLM facilitent le fine-tuning pour les tâches de vision robotique en aval et conduisent à des performances supérieures. Nous introduisons le cadre RoboLLM, basé sur un architecture BEiT-3, afin de traiter toutes les tâches de perception visuelle du défi ARMBench — un ensemble de données à grande échelle dédié à la manipulation robotique dans des scénarios réels de entrepôts. RoboLLM surpasse non seulement les méthodes de référence existantes, mais réduit également de manière significative la charge ingénierie liée au choix et au réglage des modèles. Le code source est disponible publiquement à l'adresse suivante : https://github.com/longkukuhi/armbench.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp