PoseTrack: Gemeinsame Mehrpersonen-Pose-Schätzung und -Verfolgung

In dieser Arbeit stellen wir das anspruchsvolle Problem der gemeinsamen Mehrpersonen-Pose-Schätzung und -Verfolgung einer unbekannten Anzahl von Personen in unbeschränkten Videos vor. Bestehende Methoden zur Mehrpersonen-Pose-Schätzung in Bildern können nicht direkt auf dieses Problem angewendet werden, da sie neben der Pose-Schätzung für jede Person auch das Problem der Personen-Zuordnung über die Zeit lösen müssen. Wir schlagen daher eine neuartige Methode vor, die Mehrpersonen-Pose-Schätzung und -Verfolgung in einer einzigen Formulierung zusammenfasst. Dazu stellen wir Körperteil-Erkennungen in einem Video durch einen räumlich-zeitlichen Graphen dar und lösen ein ganzzahliges lineares Programm, um den Graphen in Untergraphen zu partitionieren, die plausiblen Körperpose-Trajektorien für jede Person entsprechen. Der vorgeschlagene Ansatz behandelt implizit die Verdeckung und Trunkierung von Personen. Da das Problem bisher in der Literatur nicht quantitativ behandelt wurde, führen wir einen anspruchsvollen "Multi-Person PoseTrack"-Datensatz ein und schlagen auch ein vollständig unbeschränktes Evaluierungsprotokoll vor, das keine Annahmen über die Skala, Größe, Position oder Anzahl der Personen macht. Schließlich evaluieren wir den vorgeschlagenen Ansatz sowie mehrere Baseline-Methoden auf unserem neuen Datensatz.