HyperAIHyperAI
vor 17 Tagen

AdaFuse: Adaptive Multiview Fusion für präzise menschliche Pose-Schätzung in natürlichen Umgebungen

Zhe Zhang, Chunyu Wang, Weichao Qiu, Wenhu Qin, Wenjun Zeng
AdaFuse: Adaptive Multiview Fusion für präzise menschliche Pose-Schätzung in natürlichen Umgebungen
Abstract

Die Verdeckung stellt wahrscheinlich die größte Herausforderung für die menschliche Pose-Schätzung in natürlichen Umgebungen dar. Typische Lösungsansätze stützen sich oft auf invasive Sensoren wie IMUs, um verdeckte Gelenke zu detektieren. Um die Aufgabe wirklich ungehindert zu gestalten, präsentieren wir AdaFuse, eine adaptive Multiview-Fusionsmethode, die die Merkmale in verdeckten Ansichten durch Ausnutzung der sichtbaren Ansichten verbessert. Der Kern von AdaFuse besteht darin, die Punktpunktkorrespondenz zwischen zwei Ansichten zu bestimmen, was wir effizient durch Ausnutzung der Sparsamkeit der Heatmap-Darstellung lösen. Außerdem lernen wir adaptive Fusionsgewichte für jede Kameraansicht, um deren Merkmalsqualität widerzuspiegeln, und so die Wahrscheinlichkeit zu verringern, dass gute Merkmale durch „schlechte“ Ansichten unerwünscht beeinträchtigt werden. Das Fusionsmodell wird end-to-end zusammen mit dem Pose-Schätzungsnetzwerk trainiert und kann direkt auf neue Kamera-Konfigurationen angewendet werden, ohne zusätzliche Anpassung. Wir evaluieren die Methode umfassend auf drei öffentlichen Datensätzen, darunter Human3.6M, Total Capture und CMU Panoptic. Sie übertrifft auf allen drei Datensätzen die bisherigen State-of-the-Art-Methoden. Zudem erstellen wir einen großskaligen synthetischen Datensatz namens Occlusion-Person, der es uns ermöglicht, quantitative Evaluierungen für verdeckte Gelenke durchzuführen, da er für jedes Gelenk in den Bildern Verdeckungslabels bereitstellt. Der Datensatz und der Code sind unter https://github.com/zhezh/adafuse-3d-human-pose veröffentlicht.