Menschliche Pose-Schätzung für realweltliche dichte Szenarien

Die Schätzung menschlicher Körperhaltungen hat in den letzten Jahren durch die Einführung tiefer konvolutiver Neuronaler Netze erhebliche Fortschritte gemacht. Ihre vielfältigen Anwendungen haben in jüngster Zeit großes Interesse geweckt. Dennoch stellen viele praktische Anwendungen die Herausforderung dar, Körperhaltungen in Menschenmengen zu schätzen, was noch ein selten behandeltes Problem ist. In dieser Arbeit untersuchen wir Methoden zur Optimierung der Körperhaltungsschätzung für Menschenmengen und konzentrieren uns auf die dadurch eingeführten Herausforderungen, wie Verdeckungen, Personen in unmittelbarer Nähe zueinander und teilweise sichtbare Personen.Um diese Herausforderungen anzugehen, bewerten wir drei Aspekte eines Ansatzes zur Erkennung von Körperhaltungen:i) eine Datenverstärkungsmethode zur Einführung von Robustheit gegenüber Verdeckungen,ii) die explizite Erkennung verdeckter Körperteile undiii) die Nutzung synthetisch generierter Datensätze.Der erste Ansatz zur Verbesserung der Genauigkeit in dichten Szenarien besteht darin, Verdeckungen während des Trainings mit Hilfe von Person- und Objektausschnitten aus dem Objekterkennungsdatensatz COCO (Common Objects in Context) zu erzeugen. Darüber hinainaus wird der synthetisch generierte Datensatz JTA (Joint Track Auto) für seine Anwendung bei realen Menschenmengen evaluiert. Um den Transferunterschied des JTA-Datensatzes zu überwinden, der durch eine geringere Vielfalt an Körperhaltungen und weniger dichte Menschenmengen entsteht, wird ein Erweiterungsdatensatz erstellt, um dessen Nutzung für reale Anwendungen zu erleichtern.Zusätzlich werden die mit JTA bereitgestellten Verdeckungsflags genutzt, um ein Modell zu trainieren, das zwischen verdeckten und sichtbaren Körperteilen in zwei getrennten Zweigen explizit unterscheidet. Die Kombination der vorgeschlagenen Ergänzungen zur Basismethode hilft, die Gesamtgenauigkeit um 4,7 % AP (Average Precision) zu verbessern und damit vergleichbare Ergebnisse wie aktuelle state-of-the-art-Ansätze auf dem entsprechenden Datensatz zu erzielen.