Détection efficace des interactions homme-objet en deux étapes à l’aide d’un nouvel encodeur Transformer unaire-paire

Les progrès récents des modèles transformer appliqués aux données visuelles ont conduit à des améliorations significatives dans les tâches de reconnaissance et de détection. En particulier, l'utilisation de requêtes apprenables à la place des propositions de régions a donné naissance à une nouvelle catégorie de modèles de détection à une étape, portée en tête par le Detection Transformer (DETR). Des variantes de cette approche à une étape ont depuis dominé la détection des interactions homme-objet (HOI). Toutefois, le succès de ces détecteurs HOI à une étape s'explique largement par la puissance de représentation des transformeurs. Nous avons constaté qu’en étant dotés du même transformeur, leurs homologues à deux étapes peuvent être plus performants, plus efficaces en mémoire, tout en nécessitant une fraction du temps d’entraînement. Dans ce travail, nous proposons le Unary-Pairwise Transformer, un détecteur à deux étapes qui exploite des représentations unaires et paires pour les interactions homme-objet. Nous observons que les parties unaire et paire de notre réseau transformeur s’specialisent : la première augmente préférentiellement les scores des exemples positifs, tandis que la seconde diminue ceux des exemples négatifs. Nous évaluons notre méthode sur les jeux de données HICO-DET et V-COCO, et dépassons de manière significative les approches de pointe. En phase d’inférence, notre modèle, basé sur ResNet50, atteint une performance quasi en temps réel sur une seule GPU.