4D-Assoziationsgraph zur Echtzeit-Multi-Person-Bewegungserfassung mit mehreren Videokameras

Diese Arbeit präsentiert einen neuartigen Echtzeit-Algorithmus zur Mehrpersonen-Bewegungserfassung basierend auf Mehransicht-Videodaten. Aufgrund der starken Verdeckungen in jeder Einzelaufnahme ist eine gemeinsame Optimierung über mehrere Ansichten und mehrere zeitliche Frames unverzichtbar, was die zentrale Herausforderung der Echtzeit-Effizienz aufwirft. Um diesem Problem zu begegnen, vereinen wir erstmals die einzelnen Schritte der Ansichtsanalyse, der Kreuzansicht-Zuordnung und der zeitlichen Verfolgung in einem einzigen Optimierungsrahmen – einem 4D-Zuordnungsgraphen, bei dem jede Dimension (Bildraum, Ansicht und Zeit) gleichberechtigt und gleichzeitig behandelt werden kann. Zur effizienten Lösung des 4D-Zuordnungsgraphen führen wir zudem die Idee der 4D-Limb-Bündel-Parsing mittels heuristischer Suche ein, gefolgt von der Bündel-Assemblierung durch die Einführung eines Bundle-Kruskal-Algorithmus. Unser Ansatz ermöglicht ein Echtzeit-Online-Bewegungserfassungssystem mit einer Frame-Rate von 30 fps, das mit fünf Kameras auf einer Szenen mit fünf Personen arbeitet. Durch die einheitliche Behandlung von Analyse, Zuordnung und Verfolgung ist unsere Methode robust gegenüber verrauschten Detektionen und erreicht eine hochwertige Online-Pose-Rekonstruktion. Der vorgeschlagene Ansatz übertrifft quantitativ den Stand der Technik, ohne hochwertige Erscheinungsinformationen zu nutzen. Zudem liefern wir einen synchronisierten Mehransicht-Videodatensatz, der mit einem markergestützten Bewegungserfassungssystem erfasst wurde, um wissenschaftliche Evaluationen zu ermöglichen.