HyperAIHyperAI

Command Palette

Search for a command to run...

ERNet : Détection efficace et fiable des interactions homme-objet

Massimo Tistarelli John See KokSheik Wong Joanne Mun-Yee Lim Vishnu Monn Baskaran JunYi Lim

Résumé

La détection des interactions homme-objet (HOI) consiste à reconnaître comment les personnes interagissent avec des objets, ce qui présente un avantage significatif dans les systèmes autonomes tels que les véhicules autonomes ou les robots collaboratifs. Toutefois, les détecteurs HOI actuels souffrent fréquemment d’une inefficacité du modèle et d’une fiabilité insuffisante lors de la prédiction, ce qui limite leur potentiel dans des scénarios du monde réel. Dans cet article, nous abordons ces défis en proposant ERNet, un réseau convolutif-transformer entraînable de bout en bout pour la détection HOI. Le modèle proposé utilise une attention déformable multi-échelle efficace afin de capturer efficacement les caractéristiques essentielles des interactions homme-objet. Nous introduisons également un nouveau module d’attention de détection, capable de générer de manière adaptative des tokens sémantiquement riches pour les instances et les interactions. Ces tokens subissent des détections préalables afin de produire des propositions initiales de régions et de vecteurs, qui servent également de requêtes et améliorent ainsi le processus de raffinement des caractéristiques dans les décodeurs transformeurs. Plusieurs améliorations significatives sont également appliquées afin d’enrichir l’apprentissage des représentations HOI. En outre, nous utilisons un cadre d’estimation d’incertitude prédictive dans les têtes de classification des instances et des interactions afin de quantifier l’incertitude associée à chaque prédiction. Grâce à cette approche, nous pouvons prédire avec précision et fiabilité les interactions homme-objet, même dans des scénarios complexes. Les résultats expérimentaux sur les jeux de données HICO-Det, V-COCO et HOI-A démontrent que le modèle proposé atteint des performances de détection et d’efficacité d’entraînement au niveau de l’état de l’art. Le code source est disponible publiquement à l’adresse suivante : https://github.com/Monash-CyPhi-AI-Research-Lab/ernet.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp