Command Palette
Search for a command to run...
DPIT: Dual-Pipeline Integrated Transformer für die menschliche Pose-Schätzung
DPIT: Dual-Pipeline Integrated Transformer für die menschliche Pose-Schätzung
Shuaitao Zhao Kun Liu Yuhang Huang Qian Bao Dan Zeng Wu Liu
Zusammenfassung
Die menschliche Pose-Schätzung zielt darauf ab, die Schlüsselpunkte aller Personen in verschiedenen Szenen zu ermitteln. Trotz vielversprechender Ergebnisse stellen aktuelle Ansätze weiterhin einige Herausforderungen dar. Bestehende Top-Down-Methoden behandeln jeweils eine einzelne Person separat und berücksichtigen dabei weder die Interaktion zwischen verschiedenen Personen noch deren Bezug zur Umgebung. Folglich verschlechtert sich die Leistung der Menschenerkennung bei starker Verdeckung erheblich. Im Gegensatz dazu berücksichtigen bestehende Bottom-Up-Methoden alle Personen gleichzeitig und erfassen die globale Struktur der gesamten Bildinformation. Sie sind jedoch aufgrund der Skalenvariation weniger genau als Top-Down-Methoden. Um diese Probleme zu lösen, schlagen wir einen neuartigen Dual-Pipeline Integrated Transformer (DPIT) vor, der die Top-Down- und Bottom-Up-Pipelines integriert, um die visuellen Hinweise verschiedener Rezeptivfelder zu erschließen und deren Komplementarität zu nutzen. Konkret besteht DPIT aus zwei Zweigen: Der Bottom-Up-Zweig verarbeitet das gesamte Bild, um globale visuelle Informationen zu erfassen, während der Top-Down-Zweig aus dem Bounding-Box-Eintrag einer einzelnen Person lokale visuelle Merkmale extrahiert. Anschließend werden die extrahierten Merkmale aus beiden Zweigen in einen Transformer-Encoder eingespeist, um globales und lokales Wissen interaktiv zu fusionieren. Zudem definieren wir Keypoint-Abfragen, um sowohl die Gesamtszene als auch die Pose einzelner Personen zu erfassen, um so die gegenseitige Ergänzung der beiden Pipelines zu realisieren. Soweit uns bekannt ist, handelt es sich hierbei um eine der ersten Arbeiten, die Bottom-Up- und Top-Down-Pipelines mit Transformers für die menschliche Pose-Schätzung integriert. Umfangreiche Experimente auf den Datensätzen COCO und MPII zeigen, dass unser DPIT eine Leistung erreicht, die mit den aktuellen State-of-the-Art-Methoden vergleichbar ist.