Hulk : Un Traducteur Universel de Connaissances pour les Tâches centrées sur l'Humain

Les tâches de perception centrées sur l'humain, telles que la détection des piétons, la reconnaissance d'actions basée sur le squelette et l'estimation de posture, ont de nombreuses applications industrielles, notamment dans le métavers et l'analyse sportive. Récemment, il y a eu un essor pour développer des modèles fondamentaux centrés sur l'humain qui peuvent bénéficier à une large gamme de tâches de perception humaine. Bien que de nombreux modèles fondamentaux centrés sur l'humain aient obtenu des succès, ils n'ont pas exploré les tâches 3D et vision-langage pour ces modèles et nécessitaient un ajustement spécifique à chaque tâche. Ces limitations restreignent leur application à des tâches et situations plus en aval. Pour résoudre ces problèmes, nous présentons Hulk, le premier modèle généraliste multimodal centré sur l'humain, capable de traiter des tâches de vision 2D, de vision 3D, basées sur le squelette et de vision-langage sans ajustement spécifique à chaque tâche. La clé pour atteindre cela réside dans la condensation de diverses têtes spécifiques aux tâches en deux têtes générales : une pour les représentations discrètes (par exemple, les langages) et l'autre pour les représentations continues (par exemple, les coordonnées de localisation). Les sorties de ces deux têtes peuvent être ensuite combinées en quatre modalités d'entrée et sortie distinctes. Cette représentation uniforme permet à Hulk de traiter diverses tâches centrées sur l'humain comme des traductions modales, intégrant ainsi les connaissances à travers une large gamme de tâches. Des évaluations exhaustives de Hulk sur 12 bancs d'essai couvrant 8 tâches centrées sur l'humain démontrent la supériorité de notre méthode proposée, atteignant des performances d'état de l'art dans 11 bancs d'essai. Le code est disponible sur https://github.com/OpenGVLab/Hulk.