EfficientPose: Skalierbare Einzelpersonen-Positionsabschätzung

Die Schätzung der menschlichen Körperhaltung für Einzelpersonen ermöglicht die markerlose Bewegungsanalyse in der Sportwissenschaft sowie in klinischen Anwendungen. Dennoch erfüllen derzeit state-of-the-art-Modelle zur menschlichen Körperhaltungsschätzung häufig nicht die Anforderungen realer Anwendungen. Die Verbreitung von Deep-Learning-Techniken hat die Entwicklung vieler fortschrittlicher Ansätze ermöglicht. Doch mit dem Fortschritt im Bereich der menschlichen Körperhaltungsschätzung wurden auch zunehmend komplexere und ineffiziente Modelle eingeführt, was zu einer erheblichen Steigerung der Rechenanforderungen geführt hat. Um diesen Herausforderungen hinsichtlich Komplexität und Effizienz zu begegnen, schlagen wir eine neuartige Architektur für convolutionale neuronale Netze vor, die als EfficientPose bezeichnet wird und kürzlich vorgeschlagene EfficientNets nutzt, um eine effiziente und skalierbare Schätzung der menschlichen Körperhaltung für Einzelpersonen zu ermöglichen. EfficientPose ist eine Modellfamilie, die einen effektiven Multi-Scale-Feature-Extractor sowie recheneffiziente Detektionsblöcke unter Verwendung mobiler invertierter Bottleneck-Konvolutionen nutzt, wobei gleichzeitig die Genauigkeit der geschätzten Körperhaltungen weiter verbessert wird. Aufgrund ihrer geringen Komplexität und hohen Effizienz ermöglicht EfficientPose reale Anwendungen auf Edge-Geräten, indem der Speicherbedarf und der Rechenaufwand begrenzt werden. Die Ergebnisse unserer Experimente, die den anspruchsvollen MPII-Einzelpersonen-Benchmark verwenden, zeigen, dass die vorgeschlagenen EfficientPose-Modelle das weit verbreitete OpenPose-Modell sowohl hinsichtlich Genauigkeit als auch hinsichtlich rechnerischer Effizienz erheblich übertreffen. Insbesondere erreicht unser bestes Modell eine state-of-the-art-Genauigkeit bei der Einzelpersonen-MPII-Aufgabe, wobei dabei niedrigkomplexe ConvNets eingesetzt werden.