Apprentissage multi-tâches centré sur les objets pour les instances humaines

L'humain est l'une des classes les plus essentielles dans les tâches de reconnaissance visuelle telles que la détection, la segmentation et l'estimation de la posture. Bien que beaucoup d'efforts aient été consacrés à des tâches individuelles, l'apprentissage multi-tâches pour ces trois tâches a rarement été étudié. Dans cet article, nous explorons une architecture de réseau multi-tâches compacte qui partage au maximum les paramètres des multiples tâches grâce à l'apprentissage centré sur l'objet. À cette fin, nous proposons un nouveau design de requête pour encoder efficacement les informations d'instance humaine, appelée requête centrée sur l'humain (HCQ). L'HCQ permet à la requête d'apprendre des informations explicites et structurées sur l'humain, notamment les points clés. De plus, nous utilisons l'HCQ directement dans les têtes de prédiction des tâches cibles et nous entrelaçons également l'HCQ avec l'attention déformable dans les décodeurs Transformer afin d'exploiter une représentation bien apprise centrée sur l'objet. Les résultats expérimentaux montrent que le réseau multi-tâches proposé atteint une précision comparable à celle des modèles spécifiques à chaque tâche de pointe en détection, segmentation et estimation de la posture humaine, tout en consommant moins de ressources computationnelles.