HyperAIHyperAI
vor 2 Monaten

X-Pose: Erkennung beliebiger Keypoints

Yang, Jie ; Zeng, Ailing ; Zhang, Ruimao ; Zhang, Lei
X-Pose: Erkennung beliebiger Keypoints
Abstract

Diese Arbeit befasst sich mit einem fortgeschrittenen Keypoint-Detektionsproblem: Wie kann man in komplexen realen Szenarien beliebige Keypoints präzise erkennen, die sowohl massive, unordentliche und offene Objekte als auch deren zugehörige Keypoint-Definitionen umfassen? Aktuelle hochleistungsfähige Keypoint-Detektoren scheitern oft an diesem Problem aufgrund ihrer zweistufigen Verfahren, unterbeschäftigter Prompt-Designs und begrenzter Trainingsdaten. Um diese Lücke zu schließen, schlagen wir X-Pose vor, ein neues End-to-End-Framework mit multimodalen Prompts (d.h., visuellen, textuellen oder Kombinationen davon), das Keypoints für mehrere Objekte in einem gegebenen Bild erkennt. Diese Objekte können artikuliert (z.B. Menschen und Tiere), starr oder weich sein. Darüber hinaus stellen wir UniKPT vor, einen groß angelegten Datensatz, der 13 Keypoint-Detektionsdatensätze vereint und insgesamt 338 Keypoints über 1.237 Kategorien bei über 400.000 Instanzen abdeckt. Durch das Training mit UniKPT kann X-Pose Text-zu-Keypoint- und Bild-zu-Keypoint-Zuordnungen effektiv ausrichten, dank der gegenseitigen Verbesserung multimodaler Prompts durch krossmodales Kontrastlernverfahren. Unsere experimentellen Ergebnisse zeigen, dass X-Pose in den jeweiligen fairen Einstellungen gegenüber den besten bisher bekannten nicht-promptfähigen, visuell promptbasierten und textuell promptbasierten Methoden bemerkenswerte Verbesserungen von 27,7 AP (Average Precision), 6,44 PCK (Percentage of Correct Keypoints) und 7,0 AP erreicht. Noch wichtiger ist jedoch, dass die Testung in natürlichen Bedingungen X-Pose's starke feinkörnige Keypoint-Lokalisierungsfähigkeiten und Generalisierungsfähigkeiten über verschiedene Bildstile, Objektkategorien und -haltungen hinweg demonstriert. Dies bahnt einen neuen Weg zur Mehrfachobjekt-Keypoint-Detektion in praktischen Anwendungen. Unser Code und unser Datensatz sind unter https://github.com/IDEA-Research/X-Pose verfügbar.请注意,"krossmodales" 应为 "cross-modales",这是为了保持与原文的一致性。在正式的德语文档中,通常会使用连字符来表示复合词。

X-Pose: Erkennung beliebiger Keypoints | Neueste Forschungsarbeiten | HyperAI