HyperAIHyperAI

Command Palette

Search for a command to run...

DPIT: Dual-Pipeline Integrated Transformer für die menschliche Pose-Schätzung

Shuaitao Zhao Kun Liu Yuhang Huang Qian Bao Dan Zeng Wu Liu

Zusammenfassung

Die menschliche Pose-Schätzung zielt darauf ab, die Schlüsselpunkte aller Personen in verschiedenen Szenen zu ermitteln. Trotz vielversprechender Ergebnisse stellen aktuelle Ansätze weiterhin einige Herausforderungen dar. Bestehende Top-Down-Methoden behandeln jeweils eine einzelne Person separat und berücksichtigen dabei weder die Interaktion zwischen verschiedenen Personen noch deren Bezug zur Umgebung. Folglich verschlechtert sich die Leistung der Menschenerkennung bei starker Verdeckung erheblich. Im Gegensatz dazu berücksichtigen bestehende Bottom-Up-Methoden alle Personen gleichzeitig und erfassen die globale Struktur der gesamten Bildinformation. Sie sind jedoch aufgrund der Skalenvariation weniger genau als Top-Down-Methoden. Um diese Probleme zu lösen, schlagen wir einen neuartigen Dual-Pipeline Integrated Transformer (DPIT) vor, der die Top-Down- und Bottom-Up-Pipelines integriert, um die visuellen Hinweise verschiedener Rezeptivfelder zu erschließen und deren Komplementarität zu nutzen. Konkret besteht DPIT aus zwei Zweigen: Der Bottom-Up-Zweig verarbeitet das gesamte Bild, um globale visuelle Informationen zu erfassen, während der Top-Down-Zweig aus dem Bounding-Box-Eintrag einer einzelnen Person lokale visuelle Merkmale extrahiert. Anschließend werden die extrahierten Merkmale aus beiden Zweigen in einen Transformer-Encoder eingespeist, um globales und lokales Wissen interaktiv zu fusionieren. Zudem definieren wir Keypoint-Abfragen, um sowohl die Gesamtszene als auch die Pose einzelner Personen zu erfassen, um so die gegenseitige Ergänzung der beiden Pipelines zu realisieren. Soweit uns bekannt ist, handelt es sich hierbei um eine der ersten Arbeiten, die Bottom-Up- und Top-Down-Pipelines mit Transformers für die menschliche Pose-Schätzung integriert. Umfangreiche Experimente auf den Datensätzen COCO und MPII zeigen, dass unser DPIT eine Leistung erreicht, die mit den aktuellen State-of-the-Art-Methoden vergleichbar ist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp