HyperAIHyperAI
vor 7 Tagen

ViTPose: Einfache Vision Transformer Baselines für die menschliche Pose-Schätzung

Yufei Xu, Jing Zhang, Qiming Zhang, Dacheng Tao
ViTPose: Einfache Vision Transformer Baselines für die menschliche Pose-Schätzung
Abstract

Obwohl bei der Gestaltung keinerlei spezifische Domänenkenntnis berücksichtigt wird, haben einfache Vision-Transformer ausgezeichnete Leistungen bei Aufgaben der visuellen Erkennung gezeigt. Dennoch wurde bisher nur wenig Aufmerksamkeit darauf verwendet, das Potenzial solcher einfachen Architekturen für Aufgaben der Pose-Schätzung aufzudecken. In diesem Paper zeigen wir anhand einer einfachen Baseline-Modellarchitektur namens ViTPose aus verschiedenen Perspektiven die überraschend guten Fähigkeiten einfacher Vision-Transformer für die Pose-Schätzung: Einfachheit der Modellstruktur, Skalierbarkeit der Modellgröße, Flexibilität im Trainingsparadigma sowie Übertragbarkeit von Wissen zwischen Modellen. Konkret verwendet ViTPose einfache, nicht-hierarchische Vision-Transformer als Backbone zur Merkmalsextraktion für eine gegebene Personeninstanz und einen leichten Decoder zur Pose-Schätzung. Durch die Skalierbarkeit des Modellkapazitäts- und die hohe Parallelität der Transformer kann das Modell von 100 M auf bis zu 1 Mrd. Parameter skaliert werden, wodurch eine neue Pareto-Front zwischen Durchsatz und Leistung erreicht wird. Zudem ist ViTPose äußerst flexibel hinsichtlich der Art der Aufmerksamkeit, der Eingabegröße, des Vortrainings- und Feintuning-Strategien sowie der Behandlung mehrerer Pose-Aufgaben gleichzeitig. Wir demonstrieren empirisch außerdem, dass das Wissen großer ViTPose-Modelle einfach auf kleinere Modelle übertragen werden kann, indem ein einfacher Knowledge-Token verwendet wird. Experimentelle Ergebnisse zeigen, dass unser grundlegendes ViTPose-Modell auf dem anspruchsvollen MS COCO Keypoint Detection Benchmark die Leistung repräsentativer Methoden übertrifft, während das größte Modell eine neue State-of-the-Art erreicht. Der Quellcode und die Modelle sind unter https://github.com/ViTAE-Transformer/ViTPose verfügbar.

ViTPose: Einfache Vision Transformer Baselines für die menschliche Pose-Schätzung | Neueste Forschungsarbeiten | HyperAI