HyperAIHyperAI
il y a 2 mois

CapeLLM : Estimation de la pose sans support et indépendante des catégories avec des grands modèles linguistiques multimodaux

Kim, Junho ; Chung, Hyungjin ; Kim, Byung-Hoon
CapeLLM : Estimation de la pose sans support et indépendante des catégories avec des grands modèles linguistiques multimodaux
Résumé

L'estimation de pose indépendante de la catégorie (CAPE) s'est traditionnellement appuyée sur des images d'appui annotées avec des points clés, un processus souvent fastidieux et qui peut ne pas capturer pleinement les correspondances nécessaires entre les différentes catégories d'objets. Les efforts récents ont commencé à explorer l'utilisation de requêtes basées sur le texte, éliminant ainsi le besoin de points clés d'appui. Cependant, l'utilisation optimale des descriptions textuelles pour les points clés reste un domaine peu exploré. Dans ce travail, nous présentons CapeLLM, une nouvelle approche qui utilise un grand modèle linguistique multimodal basé sur le texte (MLLM) pour la CAPE. Notre méthode n'utilise que l'image de requête et des descriptions textuelles détaillées comme entrée pour estimer des points clés indépendants de la catégorie. Nous menons des expériences approfondies pour explorer systématiquement l'espace de conception de la CAPE basée sur les LLM, en examinant des facteurs tels que le choix de la description optimale des points clés, les architectures de réseaux neuronaux et les stratégies d'entraînement. Grâce aux capacités avancées de raisonnement du MLLM pré-entraîné, CapeLLM montre une généralisation supérieure et une performance robuste. Notre approche établit un nouveau niveau d'excellence sur le benchmark MP-100 dans le cadre difficile du 1-shot, marquant une avancée significative dans le domaine de l'estimation de pose indépendante de la catégorie.