BAPose: Bottom-Up-Pose-Schätzung mit entkoppelten Wasserfallrepräsentationen

Wir schlagen BAPose vor, einen neuen bottom-up Ansatz, der den aktuellen Stand der Technik in der Mehrpersonen-Pose-Schätzung erreicht. Unser von Anfang bis Ende trainierbares Framework nutzt eine entkoppelte Multi-Skalen-Wasserfallarchitektur und integriert adaptive Faltungen, um Schlüsselpunkte in dichten Szenen mit Überlappungen präziser zu bestimmen. Die Multi-Skalen-Darstellungen, die durch das entkoppelte Wasserfallmodul in BAPose erzielt werden, nutzen die Effizienz des progressiven Filterns in der Kaskadenarchitektur, während sie gleichzeitig vergleichbare Multi-Skalen-Blickfelder wie bei räumlichen Pyramidenkonfigurationen aufrechterhalten. Unsere Ergebnisse auf den anspruchsvollen COCO- und CrowdPose-Datensätzen zeigen, dass BAPose ein effizientes und robustes Framework für die Mehrpersonen-Pose-Schätzung ist und signifikante Verbesserungen im Vergleich zum aktuellen Stand der Technik erzielt.