HyperAIHyperAI
il y a 11 jours

Détection efficace des interactions homme-objet en deux étapes à l’aide d’un nouvel encodeur Transformer unaire-paire

Frederic Z. Zhang, Dylan Campbell, Stephen Gould
Détection efficace des interactions homme-objet en deux étapes à l’aide d’un nouvel encodeur Transformer unaire-paire
Résumé

Les progrès récents des modèles transformer appliqués aux données visuelles ont conduit à des améliorations significatives dans les tâches de reconnaissance et de détection. En particulier, l'utilisation de requêtes apprenables à la place des propositions de régions a donné naissance à une nouvelle catégorie de modèles de détection à une étape, portée en tête par le Detection Transformer (DETR). Des variantes de cette approche à une étape ont depuis dominé la détection des interactions homme-objet (HOI). Toutefois, le succès de ces détecteurs HOI à une étape s'explique largement par la puissance de représentation des transformeurs. Nous avons constaté qu’en étant dotés du même transformeur, leurs homologues à deux étapes peuvent être plus performants, plus efficaces en mémoire, tout en nécessitant une fraction du temps d’entraînement. Dans ce travail, nous proposons le Unary-Pairwise Transformer, un détecteur à deux étapes qui exploite des représentations unaires et paires pour les interactions homme-objet. Nous observons que les parties unaire et paire de notre réseau transformeur s’specialisent : la première augmente préférentiellement les scores des exemples positifs, tandis que la seconde diminue ceux des exemples négatifs. Nous évaluons notre méthode sur les jeux de données HICO-DET et V-COCO, et dépassons de manière significative les approches de pointe. En phase d’inférence, notre modèle, basé sur ResNet50, atteint une performance quasi en temps réel sur une seule GPU.

Détection efficace des interactions homme-objet en deux étapes à l’aide d’un nouvel encodeur Transformer unaire-paire | Articles de recherche récents | HyperAI