HyperAIHyperAI
vor 2 Monaten

SMPLer-X: Skalierung der expressiven menschlichen Pose- und Formschätzung

Cai, Zhongang ; Yin, Wanqi ; Zeng, Ailing ; Wei, Chen ; Sun, Qingping ; Wang, Yanjun ; Pang, Hui En ; Mei, Haiyi ; Zhang, Mingyuan ; Zhang, Lei ; Loy, Chen Change ; Yang, Lei ; Liu, Ziwei
SMPLer-X: Skalierung der expressiven menschlichen Pose- und Formschätzung
Abstract

Expressive Human Pose und Shape Estimation (EHPS) vereint die Bewegungserfassung von Körper, Händen und Gesicht mit zahlreichen Anwendungen. Trotz ermutigender Fortschritte hängen aktuelle Methoden der Spitzenklasse immer noch weitgehend von einem begrenzten Satz an Trainingsdatensätzen ab. In dieser Arbeit untersuchen wir die Skalierung von EHPS hin zu einem ersten allgemeinen Grundmodell (benannt SMPLer-X), das bis zu ViT-Huge als Backbone verwendet und mit bis zu 4,5 Millionen Instanzen aus diversen Datenquellen trainiert wird. Mit großen Datenmengen und dem großen Modell zeigt SMPLer-X eine starke Leistung über verschiedene Testbenchmarks hinweg und eine ausgezeichnete Übertragbarkeit sogar auf unbekannte Umgebungen.1) Für die Datenskalierung führen wir eine systematische Untersuchung an 32 EHPS-Datensätzen durch, die ein breites Spektrum von Szenarien umfassen, die ein Modell, das auf einem einzelnen Datensatz trainiert wurde, nicht bewältigen kann. Noch wichtiger ist, dass wir aufgrund der Erkenntnisse aus dem umfangreichen Benchmarking-Prozess unser Trainingsverfahren optimieren und Datensätze auswählen, die zu einem signifikanten Sprung in den Fähigkeiten des EHPS führen.2) Für die Modellskalierung nutzen wir Vision Transformers, um das Skalierungsverhalten der Modellgrößen in EHPS zu untersuchen. Darüber hinaus ermöglicht unsere Feinjustierungsstrategie es SMPLer-X, zu spezialisierten Modellen zu werden, wodurch sie weitere Leistungssteigerungen erzielen können. Bemerkenswerterweise liefert unser Grundmodell SMPLer-X konsistent state-of-the-art-Ergebnisse auf sieben Benchmarks wie AGORA (107,2 mm NMVE), UBody (57,4 mm PVE), EgoBody (63,6 mm PVE) und EHF (62,3 mm PVE ohne Feinjustierung).Homepage: https://caizhongang.github.io/projects/SMPLer-X/

SMPLer-X: Skalierung der expressiven menschlichen Pose- und Formschätzung | Neueste Forschungsarbeiten | HyperAI