Occluded Human Body Capture mit selbstüberwachtem räumlich-zeitlichen Bewegungsprior

Obwohl in den letzten Jahren erhebliche Fortschritte bei der monokularen markerlosen Bewegungserfassung von Menschen gemacht wurden, ist es für moderne Methoden immer noch schwierig, zufriedenstellende Ergebnisse in Szenarien mit Verdeckungen zu erzielen. Es gibt zwei Hauptgründe dafür: Erstens ist die Bewegungserfassung bei Verdeckungen intrinsisch mehrdeutig, da verschiedene 3D-Posen auf dieselben 2D-Beobachtungen abgebildet werden können, was zu einem unzuverlässigen Schätzergebnis führt. Zweitens kann nicht genügend verdeckte Menschendaten verwendet werden, um ein robustes Modell zu trainieren. Um diese Hürden zu überwinden, basiert unsere Kernidee darauf, nicht-verdeckte Menschendaten mit einer selbstüberwachten Strategie zu verwenden, um eine räumlich-zeitliche Bewegungspriorität auf Gliedmaßenebene für verdeckte Menschen zu lernen. Um den Unterschied zwischen synthetischen und realen Verdeckungsdaten weiter zu verringern, haben wir den ersten 3D-Verdeckungsdatensatz (OcMotion) erstellt, der sowohl für das Training als auch für die Testung verwendet werden kann. Wir kodieren die Bewegungen in 2D-Karten und synthetisieren Verdeckungen auf nicht-verdeckten Daten für das selbstüberwachte Training. Anschließend wurde eine räumlich-zeitliche Schicht entwickelt, um Korrelationen auf Gliedmaßenebene zu lernen. Das gelernte Prioritätsmodell reduziert die Mehrdeutigkeit von Verdeckungen und ist robust gegenüber verschiedenen Arten von Verdeckungen. Dieses Modell wird dann eingesetzt, um die Bewegungserfassung von verdeckten Menschen zu unterstützen. Experimentelle Ergebnisse zeigen, dass unsere Methode genaue und konsistente menschliche Bewegungen aus verdeckten Videos generieren kann und dabei gute Generalisierungsfähigkeit und Laufzeiteffizienz aufweist. Der Datensatz und der Code sind öffentlich zugänglich unter \url{https://github.com/boycehbz/CHOMP}.