HyperAIHyperAI

Command Palette

Search for a command to run...

CapeLLM: Support-Free Category-Agnostic Pose Estimation mit multimodalen großen Sprachmodellen

Junho Kim Hyungjin Chung Byung-Hoon Kim

Zusammenfassung

Kategorieunabhängige Pose-Schätzung (CAPE) hat traditionell auf Unterstützungsbilder mit annotierten Schlüsselpunkten zurückgegriffen, ein Prozess, der oft mühsam ist und möglicherweise nicht alle notwendigen Korrespondenzen über verschiedene Objektkategorien hinweg vollständig erfassen kann. Kürzliche Bemühungen haben begonnen, die Verwendung von textbasierten Abfragen zu erforschen, bei denen die Notwendigkeit von Unterstützungsschlüsselpunkten eliminiert wird. Dennoch bleibt das optimale Nutzen textbasierter Beschreibungen für Schlüsselpunkte ein untererforschtes Gebiet. In dieser Arbeit stellen wir CapeLLM vor, einen neuen Ansatz, der ein textbasiertes multimodales großes Sprachmodell (MLLM) für CAPE nutzt. Unsere Methode verwendet nur das Abfragebild und detaillierte textbasierte Beschreibungen als Eingabe zur Schätzung kategorieunabhängiger Schlüsselpunkte. Wir führen umfangreiche Experimente durch, um den Entwurfsraum von LLM-basierter CAPE systematisch zu erkunden und Faktoren wie die Auswahl der optimalen Beschreibung für Schlüsselpunkte, neuronale Netzarchitekturen und Trainingsstrategien zu untersuchen. Dank der fortschrittlichen Inferenzfähigkeiten des vortrainierten MLLMs zeigt CapeLLM eine überlegene Generalisierung und robuste Leistung. Unser Ansatz setzt einen neuen Stand der Technik im anspruchsvollen 1-Shot-Szenario des MP-100-Benchmarks, was einen bedeutenden Fortschritt im Bereich der kategorieunabhängigen Pose-Schätzung darstellt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
CapeLLM: Support-Free Category-Agnostic Pose Estimation mit multimodalen großen Sprachmodellen | Paper | HyperAI