HyperAIHyperAI
il y a 11 jours

Détection des interactions homme-objet à l’aide de sémantiques croisées modalités guidées par les objets et calibrées

Hangjie Yuan, Mang Wang, Dong Ni, Liangpeng Xu
Détection des interactions homme-objet à l’aide de sémantiques croisées modalités guidées par les objets et calibrées
Résumé

La détection d'interactions homme-objet (HOI) est une tâche essentielle pour comprendre les images centrées sur l'humain à un niveau fine-grained. Bien que les modèles de détection HOI end-to-end connaissent un essor, leur paradigme fondé sur la détection parallèle des humains/objets et la prédiction de la classe de verbe perd un avantage des méthodes à deux étapes : la hiérarchie guidée par l'objet. En effet, l'objet présent dans un triplet HOI fournit des indices directs pour la prédiction du verbe. Dans cet article, nous visons à améliorer les modèles end-to-end en intégrant des a priori statistiques guidés par l'objet. Plus précisément, nous proposons d'utiliser un Modèle Sémantique de Verbe (VSM) et d'exploiter la hiérarchie guidée par l'objet grâce à une agrégation sémantique. Nous introduisons une perte de similarité KL (SKL) pour optimiser le VSM afin qu'il s'aligne avec les a priori du jeu de données HOI. Pour surmonter le problème des embeddings sémantiques statiques, nous proposons de générer des caractéristiques visuelles et sémantiques sensibles aux modalités croisées grâce à une Calibration Multimodale (CMC). L'ensemble de ces modules constitue le Réseau de Calibration Multimodale guidée par l'objet (OCN). Des expériences menées sur deux benchmarks populaires de détection HOI démontrent l'importance de l'intégration de connaissances a priori statistiques, permettant d'atteindre des performances de pointe. Une analyse détaillée indique que les modules proposés agissent comme un prédicteur de verbe plus puissant et comme une méthode plus efficace d'exploitation des connaissances a priori. Le code est disponible à l'adresse suivante : \url{https://github.com/JacobYuan7/OCN-HOI-Benchmark}.

Détection des interactions homme-objet à l’aide de sémantiques croisées modalités guidées par les objets et calibrées | Articles de recherche récents | HyperAI