15 Keypoints sind alles, was Sie brauchen

Pose-Tracking ist ein zentrales Problem, das die Identifikation eindeutiger menschlicher Pose-Instanzen und deren zeitliche Zuordnung über verschiedene Frames eines Videos erfordert. Bisherige Ansätze zum Pose-Tracking sind jedoch nicht in der Lage, zeitliche Beziehungen präzise zu modellieren und erfordern oft erhebliche Rechenleistung, wobei die Tracks häufig offline berechnet werden. Wir stellen eine effiziente Methode für die Mehrpersonen-Pose-Tracking, KeyTrack, vor, die ausschließlich auf Keypoint-Informationen basiert und weder RGB-Daten noch optische Flussinformationen verwendet, um menschliche Keypoints in Echtzeit zu verfolgen. Die Verfolgung der Keypoints erfolgt mittels unseres Pose-Entailment-Ansatzes: Zunächst werden aus verschiedenen Frames eines Videos Paare von Pose-Schätzungen entnommen und tokenisiert. Anschließend führt ein auf Transformer basierendes Netzwerk eine binäre Klassifikation durch, um zu bestimmen, ob eine Pose zeitlich einer anderen folgt. Darüber hinaus verbessern wir unsere top-down Pose-Schätzungsmethode durch eine neuartige, parameterfreie Technik zur Keypoint-Verfeinerung, die die Genauigkeit der Keypoint-Schätzungen im Rahmen des Pose-Entailment-Schritts erhöht. Wir erreichen state-of-the-art Ergebnisse auf den Benchmarks PoseTrack'17 und PoseTrack'18, wobei lediglich ein Bruchteil der Rechenressourcen erforderlich ist, die die meisten anderen Methoden zur Berechnung der Tracking-Informationen benötigen.