HyperAIHyperAI

Command Palette

Search for a command to run...

Explizite Box-Erkennung vereint die end-to-end Mehrpersonen-Pose-Schätzung

Jie Yang Ailing Zeng Shilong Liu Feng Li Ruimao Zhang Lei Zhang

Zusammenfassung

Dieses Papier präsentiert ein neues End-to-End-Framework mit expliziter Box-Detektion für die Mehrpersonen-Pose-Schätzung, genannt ED-Pose, bei dem das kontextuelle Lernen zwischen menschlicher (globaler) und Keypoint-Level (lokalen) Informationen vereint wird. Im Gegensatz zu früheren One-Stage-Methoden betrachtet ED-Pose diese Aufgabe als zwei explizite Box-Detektionsprozesse mit einer vereinheitlichten Darstellung und Regressionsüberwachung. Zunächst führen wir einen Menschen-Detektions-Decodier von kodierten Tokens ein, um globale Merkmale zu extrahieren. Dies kann eine gute Initialisierung für den nachfolgenden Keypoint-Detektionsprozess bieten und den Trainingsprozess beschleunigen. Zweitens, um kontextuelle Informationen in der Nähe der Keypoints einzubeziehen, betrachten wir die Pose-Schätzung als ein Keypoint-Box-Detektionsproblem, um sowohl die Positionen als auch den Inhalt jeder Box zu lernen. Ein Mensch-zu-Keypoint-Detektions-Decodier verwendet eine interaktive Lernstrategie zwischen menschlichen und Keypoint-Merkmalsinformationen, um die Aggregation von globalen und lokalen Merkmalen weiter zu verbessern. Im Allgemeinen ist ED-Pose konzeptionell einfach, ohne Postverarbeitung oder dichte Heatmap-Überwachung. Es zeigt seine Effektivität und Effizienz im Vergleich zu Two-Stage- und One-Stage-Methoden. Bemerkenswerterweise erhöht die explizite Box-Detektion die Leistung der Pose-Schätzung um 4,5 AP auf COCO und 9,9 AP auf CrowdPose. Zum ersten Mal übertrifft ED-Pose als vollständiges End-to-End-Framework mit einem L1-Regressionsverlust die heatmap-basierten Top-down-Methoden unter gleicher Backbone-Architektur um 1,2 AP auf COCO und erreicht den aktuellen Stand der Technik mit 76,6 AP auf CrowdPose ohne zusätzliche Verfeinerungen. Der Quellcode ist unter https://github.com/IDEA-Research/ED-Pose verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp