Kaskadenförmige Merkmalsaggregation für die Schätzungen der menschlichen Körperhaltung

Die Schätzung der menschlichen Körperhaltung spielt eine wichtige Rolle in vielen Aufgaben der Computer Vision und wird seit Jahrzehnten untersucht. Trotzdem bleibt es aufgrund komplexer Erscheinungsformen von Haltungen, Beleuchtungen, Verdeckungen und niedrigen Auflösungen ein herausforderndes Problem. Die Nutzung hochstufiger semantischer Informationen aus tiefen Faltungsneuronalen Netzen ist ein effektiver Weg, die Genauigkeit der Schätzung der menschlichen Körperhaltung zu verbessern. In dieser Arbeit schlagen wir eine neuartige Methode zur Kaskaden-Feature-Aggregation (CFA) vor, die mehrere Stundenglasnetze für eine robuste Schätzung der menschlichen Körperhaltung kaskadiert. Merkmale aus verschiedenen Stufen werden aggregiert, um reichhaltige kontextuelle Informationen zu erhalten, was zu einer Robustheit gegenüber Haltungen, teilweiser Verdeckungen und niedriger Auflösung führt. Darüber hinaus werden Ergebnisse aus verschiedenen Stufen fusioniert, um die Lokalisierungsgenauigkeit weiter zu verbessern. Ausführliche Experimente mit den Datensätzen MPII und LIP zeigen, dass unser vorgeschlagener CFA den aktuellen Stand der Technik übertrifft und die beste Leistung im Benchmark-Datensatz MPII erzielt.