HyperAIHyperAI
il y a 18 jours

Méthode hiérarchique extensible pour la détection d’actions interactives en vue de la compréhension vidéo

{Junho Jin, Jinyoung Moon, Yongjin Kwon, Kyuchang Kang, Kyoung Park, Jongyoul Park}
Résumé

Pour la compréhension vidéo, c’est-à-dire l’analyse de qui fait quoi dans une vidéo, les actions ainsi que les objets constituent les éléments fondamentaux. La plupart des études sur les actions se sont concentrées sur la reconnaissance dans des vidéos bien découpées (well-trimmed) et ont visé à améliorer les performances de classification. Toutefois, la détection d’actions, incluant à la fois la localisation et la reconnaissance, s’avère nécessaire, car, en général, les actions se chevauchent dans le temps et dans l’espace. En outre, la plupart des travaux n’ont pas pris en compte l’extensibilité face à une nouvelle action ajoutée après l’entraînement initial. Par conséquent, cette étude propose une méthode hiérarchique extensible pour la détection d’actions génériques, combinant les mouvements des objets et les relations spatiales entre deux objets, ainsi que les actions héritées, déterminées à partir des objets associés par une approche fondée sur une ontologie et des règles. La conception hiérarchique de la méthode permet de détecter toute action interactive fondée sur les relations spatiales entre deux objets. L’utilisation des informations objets permet d’atteindre une mesure F de 90,27 %. En outre, cet article décrit l’extensibilité de la méthode face à une nouvelle action présente dans une vidéo provenant d’un domaine vidéo différent de celui du jeu de données utilisé.