ArtTrack: Artikuliertes Mehrpersonen-Tracking in der Wildbahn

In dieser Arbeit schlagen wir einen Ansatz zur artikulierten Verfolgung mehrerer Personen in ungesteuerten Videos vor. Ausgangspunkt ist ein Modell, das den bestehenden Architekturen für die Schätzungen von Einzelbild-Posen ähnelt, aber erheblich schneller ist. Dies erreichen wir auf zwei Wegen: (1) durch Vereinfachung und Verdünnung des Körperteil-Beziehungsgraphen und Nutzung neuerer Methoden für eine schnellere Inferenz, und (2) durch Übertragung eines erheblichen Teils der Berechnungen auf eine feedforward-basierte Faltungsschichtarchitektur, die in der Lage ist, Körperteile derselben Person sogar in komplexen Szenen zu erkennen und zuordnen. Wir verwenden dieses Modell, um Vorschläge für Körperteillagen zu generieren, und formulieren die artikulierte Verfolgung als räumlich-zeitliche Gruppierung solcher Vorschläge. Dies ermöglicht es, das Zuordnungsproblem für alle Personen in der Szene simultan zu lösen, indem Beweise von starken Detektionen über die Zeit verbreitet werden und die Bedingung erzwungen wird, dass jeder Vorschlag nur einer Person zugeordnet werden kann. Wir berichten über Ergebnisse am öffentlichen MPII Human Pose Benchmark sowie an einem neuen MPII Video Pose Datensatz von Bildsequenzen mit mehreren Personen. Wir zeigen, dass unser Modell den aktuellen Stand der Technik erreicht, während es nur einen Bruchteil der Zeit benötigt, und dass es fähig ist, zeitliche Informationen zu nutzen, um den Stand der Technik in dicht besetzten Szenen zu verbessern.