UniHCP: Ein einheitliches Modell für menschenzentrierte Wahrnehmungen

Menschenzentrierte Wahrnehmungen (z.B. Pose-Schätzung, menschenzentrierte Segmentierung, Fußgängererkennung, Person-Re-Identifikation usw.) spielen eine Schlüsselrolle in industriellen Anwendungen visueller Modelle. Während spezifische menschenzentrierte Aufgaben ihre eigenen relevanten semantischen Aspekte haben, auf die sich der Fokus legt, teilen sie auch die gleiche grundlegende semantische Struktur des menschlichen Körpers. Dennoch haben nur wenige Arbeiten versucht, diese Homogenität zu nutzen und ein allgemeines Modell für menschenzentrierte Aufgaben zu entwickeln. In dieser Arbeit untersuchen wir einen breiten Spektrum an menschenzentrierten Aufgaben und vereinheitlichen sie auf minimalistische Weise. Wir schlagen UniHCP vor, ein Unified Model for Human-Centric Perceptions (vereinheitlichtes Modell für menschenzentrierte Wahrnehmungen), das eine Vielzahl von menschenzentrierten Aufgaben mit einer einfachen End-to-End-Architektur basierend auf dem reinen Vision Transformer vereint. Durch groß angelegtes gemeinsames Training auf 33 menschenzentrierten Datensätzen kann UniHCP starke Baseline-Modelle in mehreren in-domänen und nachgeschalteten Aufgaben direkt übertreffen. Wenn es auf eine spezifische Aufgabe angepasst wird, erreicht UniHCP neue State-of-the-Art-Ergebnisse in einem breiten Spektrum von menschenzentrierten Aufgaben, z.B. 69,8 mIoU auf CIHP für die Segmentierung von Menschen, 86,18 mA auf PA-100K für die Attributvorhersage, 90,3 mAP auf Market1501 für ReID und 85,8 JI auf CrowdHuman für die Fußgängererkennung, wobei es besser abschneidet als spezialisierte Modelle, die für jede einzelne Aufgabe angepasst wurden.