HandFoldingNet: Ein 3D-Handpose-Schätzungsnetzwerk, das die mehrskaligen Merkmalsgeleitete Falzung einer 2D-Hand-Skelettstruktur nutzt

Mit der zunehmenden Anwendung der 3D-Handpose-Schätzung in verschiedenen Mensch-Computer-Interaktionsszenarien wurden aktive Forschungen zu auf Convolutional Neural Networks (CNNs) basierenden Schätzmodellen unternommen. Allerdings erfordern die bestehenden Modelle komplexe Architekturen oder übermäßige rechnerische Ressourcen, um eine akzeptable Genauigkeit zu erreichen. Um diese Einschränkung zu überwinden, wird in diesem Artikel HandFoldingNet vorgestellt – ein präzises und effizientes Modell zur Schätzung der Handpose, das die Handgelenkpositionen aus einer normalisierten 3D-Hand-Punktwolke regressiv ermittelt. Das vorgeschlagene Modell nutzt einen faltenbasierten Decoder, der eine vorgegebene 2D-Hand-Skelettstruktur in die entsprechenden Gelenkkordinaten „einfaltet“. Zur Verbesserung der Schätzgenauigkeit wird die Faltoperation durch mehrskalige Merkmale geleitet, die sowohl globale als auch gelenkspezifische lokale Merkmale umfassen. Experimentelle Ergebnisse zeigen, dass das vorgeschlagene Modell auf drei Standardbenchmarks für die Handpose-Schätzung die bestehenden Methoden übertrifft, wobei es gleichzeitig die geringsten Anforderungen an die Modellparameter erfüllt. Der Quellcode ist unter https://github.com/cwc1260/HandFold verfügbar.