HumanBench : Vers une perception générale centrée sur l'humain avec une préformation assistée par projecteur

Les perceptions centrées sur l'humain englobent une variété de tâches visuelles qui ont des applications industrielles étendues, notamment la surveillance, la conduite autonome et le métavers. Il est souhaitable de disposer d'un modèle pré-entraîné général pour des tâches en aval centrées sur l'humain diverses. Cet article avance dans cette direction en abordant à la fois les aspects du benchmark et des méthodes de pré-entraînement. Plus précisément, nous proposons un HumanBench basé sur des jeux de données existants pour évaluer de manière exhaustive les capacités de généralisation de différentes méthodes de pré-entraînement sur 19 jeux de données provenant de 6 tâches en aval diverses, incluant la réidentification des personnes (person ReID), l'estimation des poses, l'analyse humaine (human parsing), la reconnaissance des attributs piétons, la détection des piétons et le comptage des foules. Pour apprendre à la fois des connaissances à grains grossiers et fins dans les corps humains, nous proposons également une méthode de pré-entraînement hiérarchique assistée par un projecteur (Projector Assisted Training Hierarchy, PATH) afin d'apprendre des connaissances diverses à différents niveaux de granularité. Des évaluations exhaustives sur HumanBench montrent que notre méthode PATH obtient de nouveaux résultats d'état de l'art sur 17 jeux de données en aval et des résultats comparables sur les deux autres jeux de données. Le code sera rendu public à \href{https://github.com/OpenGVLab/HumanBench}{https://github.com/OpenGVLab/HumanBench}.