HyperAIHyperAI

Command Palette

Search for a command to run...

ViTPose: Einfache Vision Transformer Baselines für die menschliche Pose-Schätzung

Yufei Xu Jing Zhang Qiming Zhang Dacheng Tao

Zusammenfassung

Obwohl bei der Gestaltung keinerlei spezifische Domänenkenntnis berücksichtigt wird, haben einfache Vision-Transformer ausgezeichnete Leistungen bei Aufgaben der visuellen Erkennung gezeigt. Dennoch wurde bisher nur wenig Aufmerksamkeit darauf verwendet, das Potenzial solcher einfachen Architekturen für Aufgaben der Pose-Schätzung aufzudecken. In diesem Paper zeigen wir anhand einer einfachen Baseline-Modellarchitektur namens ViTPose aus verschiedenen Perspektiven die überraschend guten Fähigkeiten einfacher Vision-Transformer für die Pose-Schätzung: Einfachheit der Modellstruktur, Skalierbarkeit der Modellgröße, Flexibilität im Trainingsparadigma sowie Übertragbarkeit von Wissen zwischen Modellen. Konkret verwendet ViTPose einfache, nicht-hierarchische Vision-Transformer als Backbone zur Merkmalsextraktion für eine gegebene Personeninstanz und einen leichten Decoder zur Pose-Schätzung. Durch die Skalierbarkeit des Modellkapazitäts- und die hohe Parallelität der Transformer kann das Modell von 100 M auf bis zu 1 Mrd. Parameter skaliert werden, wodurch eine neue Pareto-Front zwischen Durchsatz und Leistung erreicht wird. Zudem ist ViTPose äußerst flexibel hinsichtlich der Art der Aufmerksamkeit, der Eingabegröße, des Vortrainings- und Feintuning-Strategien sowie der Behandlung mehrerer Pose-Aufgaben gleichzeitig. Wir demonstrieren empirisch außerdem, dass das Wissen großer ViTPose-Modelle einfach auf kleinere Modelle übertragen werden kann, indem ein einfacher Knowledge-Token verwendet wird. Experimentelle Ergebnisse zeigen, dass unser grundlegendes ViTPose-Modell auf dem anspruchsvollen MS COCO Keypoint Detection Benchmark die Leistung repräsentativer Methoden übertrifft, während das größte Modell eine neue State-of-the-Art erreicht. Der Quellcode und die Modelle sind unter https://github.com/ViTAE-Transformer/ViTPose verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
ViTPose: Einfache Vision Transformer Baselines für die menschliche Pose-Schätzung | Paper | HyperAI