HyperAIHyperAI
il y a 2 mois

ST-HOI : Une ligne de base spatio-temporelle pour la détection des interactions humain-objet dans les vidéos

Chiou, Meng-Jiun ; Liao, Chun-Yu ; Wang, Li-Wei ; Zimmermann, Roger ; Feng, Jiashi
ST-HOI : Une ligne de base spatio-temporelle pour la détection des interactions humain-objet dans les vidéos
Résumé

La détection des interactions homme-objet (HOI) est une étape cruciale pour une compréhension visuelle complète par les machines. Bien que la détection d'interactions HOI non temporelles (par exemple, s'asseoir sur une chaise) à partir d'images statiques soit réalisable, il est difficile, même pour les humains, de deviner les interactions HOI liées au temps (par exemple, ouvrir/fermer une porte) à partir d'une seule image vidéo, où les images voisines jouent un rôle essentiel. Cependant, les méthodes conventionnelles de détection des HOI fonctionnant uniquement sur des images statiques ont été utilisées pour prédire des interactions liées au temps, ce qui revient essentiellement à deviner sans contexte temporel et peut entraîner des performances sous-optimales. Dans cet article, nous comblons cette lacune en détectant des interactions HOI basées sur la vidéo avec des informations temporelles explicites. Nous montrons d'abord qu'une variante naïve d'un modèle de base courant pour la détection d'actions ne fonctionne pas pour les interactions HOI basées sur la vidéo en raison d'un problème d'incohérence des caractéristiques. Nous proposons ensuite une architecture simple mais efficace nommée Détection Spatio-Temporelle des Interactions Homme-Objet (ST-HOI), qui utilise des informations temporelles telles que les trajectoires humaines et objets, les caractéristiques visuelles correctement localisées et les caractéristiques de pose masquées spatio-temporellement. Nous construisons un nouveau benchmark vidéo HOI appelé VidHOI où notre approche proposée sert de solide modèle de base.

ST-HOI : Une ligne de base spatio-temporelle pour la détection des interactions humain-objet dans les vidéos | Articles de recherche récents | HyperAI