HyperAIHyperAI
vor 2 Monaten

ViTPose++: Vision Transformer für die generische Körpereinstellungsschätzung

Xu, Yufei ; Zhang, Jing ; Zhang, Qiming ; Tao, Dacheng
ViTPose++: Vision Transformer für die generische Körpereinstellungsschätzung
Abstract

In dieser Arbeit zeigen wir die überraschend guten Eigenschaften einfacher Vision Transformer für die Körpereinstellungsschätzung aus verschiedenen Aspekten, nämlich Einfachheit der Modellstruktur, Skalierbarkeit der Modellgröße, Flexibilität des Trainingsparadigmas und Wissensübertragbarkeit zwischen Modellen, durch ein einfaches Baseline-Modell, das wir ViTPose nennen. Insbesondere verwendet ViTPose einen einfachen und nicht hierarchischen Vision Transformer als Encoder zur Kodierung von Merkmalen sowie einen leichten Decoder zur Dekodierung von Körperschlüsselpunkten in einem Top-Down- oder Bottom-Up-Ansatz. Das Modell kann dank der skalierbaren Kapazität und hohen Parallelität des Vision Transformers von etwa 20 Millionen auf 1 Milliarde Parameter skaliert werden, was eine neue Pareto-Front für Durchsatz und Leistung setzt.Darüber hinaus ist ViTPose sehr flexibel in Bezug auf den Aufmerksamkeitstyp, die Eingabeauflösung und die Vorgehensweise bei Vorabtraining und Feinjustierung. Auf Basis dieser Flexibilität wird ein neues Modell ViTPose+ vorgeschlagen, das durch Wissensfaktorisierung heterogene Körperschlüsselpunktkategorien in verschiedenen Arten von Körpereinstellungsschätzungsproblemen behandelt, d.h., es verwendet im Transformer sowohl task-unabhängige als auch task-spezifische Feed-Forward-Netzwerke. Wir demonstrieren auch empirisch, dass das Wissen großer ViTPose-Modelle leicht an kleinere Modelle übertragen werden kann durch ein einfaches Wissentoken. Die experimentellen Ergebnisse zeigen, dass unser ViTPose-Modell repräsentative Methoden auf dem anspruchsvollen MS COCO Human Keypoint Detection Benchmark sowohl im Top-Down- als auch im Bottom-Up-Ansatz übertrifft. Darüber hinaus erreicht unser ViTPose+-Modell gleichzeitig den aktuellen Stand der Technik in einer Reihe von Körpereinstellungsschätzungsproblemen, einschließlich MS COCO, AI Challenger, OCHuman und MPII für die Schätzung menschlicher Schlüsselpunkte sowie COCO-Wholebody für die Schätzung ganzkörperlicher Schlüsselpunkte und AP-10K sowie APT-36K für die Schätzung tierischer Schlüsselpunkte – ohne dabei die Inferenzgeschwindigkeit zu beeinträchtigen.

ViTPose++: Vision Transformer für die generische Körpereinstellungsschätzung | Neueste Forschungsarbeiten | HyperAI