HyperAIHyperAI
il y a 11 jours

ERNet : Détection efficace et fiable des interactions homme-objet

{Massimo Tistarelli, John See, KokSheik Wong, Joanne Mun-Yee Lim, Vishnu Monn Baskaran, JunYi Lim}
Résumé

La détection des interactions homme-objet (HOI) consiste à reconnaître comment les personnes interagissent avec des objets, ce qui présente un avantage significatif dans les systèmes autonomes tels que les véhicules autonomes ou les robots collaboratifs. Toutefois, les détecteurs HOI actuels souffrent fréquemment d’une inefficacité du modèle et d’une fiabilité insuffisante lors de la prédiction, ce qui limite leur potentiel dans des scénarios du monde réel. Dans cet article, nous abordons ces défis en proposant ERNet, un réseau convolutif-transformer entraînable de bout en bout pour la détection HOI. Le modèle proposé utilise une attention déformable multi-échelle efficace afin de capturer efficacement les caractéristiques essentielles des interactions homme-objet. Nous introduisons également un nouveau module d’attention de détection, capable de générer de manière adaptative des tokens sémantiquement riches pour les instances et les interactions. Ces tokens subissent des détections préalables afin de produire des propositions initiales de régions et de vecteurs, qui servent également de requêtes et améliorent ainsi le processus de raffinement des caractéristiques dans les décodeurs transformeurs. Plusieurs améliorations significatives sont également appliquées afin d’enrichir l’apprentissage des représentations HOI. En outre, nous utilisons un cadre d’estimation d’incertitude prédictive dans les têtes de classification des instances et des interactions afin de quantifier l’incertitude associée à chaque prédiction. Grâce à cette approche, nous pouvons prédire avec précision et fiabilité les interactions homme-objet, même dans des scénarios complexes. Les résultats expérimentaux sur les jeux de données HICO-Det, V-COCO et HOI-A démontrent que le modèle proposé atteint des performances de détection et d’efficacité d’entraînement au niveau de l’état de l’art. Le code source est disponible publiquement à l’adresse suivante : https://github.com/Monash-CyPhi-AI-Research-Lab/ernet.

ERNet : Détection efficace et fiable des interactions homme-objet | Articles de recherche récents | HyperAI