CapeLLM: Support-Free Category-Agnostic Pose Estimation mit multimodalen großen Sprachmodellen

Kategorieunabhängige Pose-Schätzung (CAPE) hat traditionell auf Unterstützungsbilder mit annotierten Schlüsselpunkten zurückgegriffen, ein Prozess, der oft mühsam ist und möglicherweise nicht alle notwendigen Korrespondenzen über verschiedene Objektkategorien hinweg vollständig erfassen kann. Kürzliche Bemühungen haben begonnen, die Verwendung von textbasierten Abfragen zu erforschen, bei denen die Notwendigkeit von Unterstützungsschlüsselpunkten eliminiert wird. Dennoch bleibt das optimale Nutzen textbasierter Beschreibungen für Schlüsselpunkte ein untererforschtes Gebiet. In dieser Arbeit stellen wir CapeLLM vor, einen neuen Ansatz, der ein textbasiertes multimodales großes Sprachmodell (MLLM) für CAPE nutzt. Unsere Methode verwendet nur das Abfragebild und detaillierte textbasierte Beschreibungen als Eingabe zur Schätzung kategorieunabhängiger Schlüsselpunkte. Wir führen umfangreiche Experimente durch, um den Entwurfsraum von LLM-basierter CAPE systematisch zu erkunden und Faktoren wie die Auswahl der optimalen Beschreibung für Schlüsselpunkte, neuronale Netzarchitekturen und Trainingsstrategien zu untersuchen. Dank der fortschrittlichen Inferenzfähigkeiten des vortrainierten MLLMs zeigt CapeLLM eine überlegene Generalisierung und robuste Leistung. Unser Ansatz setzt einen neuen Stand der Technik im anspruchsvollen 1-Shot-Szenario des MP-100-Benchmarks, was einen bedeutenden Fortschritt im Bereich der kategorieunabhängigen Pose-Schätzung darstellt.