HyperAIHyperAI
il y a 18 jours

Liaison d’ancre à court terme et attention auto-guidée à long terme pour la détection d’objets vidéo

{Manuel Mucientes, Víctor M Brea, Daniel Cores}
Résumé

Nous présentons une nouvelle architecture de réseau capable d’exploiter l’information spatio-temporelle disponible dans les vidéos afin d’améliorer la précision de la détection d’objets. Tout d’abord, les caractéristiques des boîtes sont associées et agrégées en reliant les propositions issues de la même boîte d’ancrage dans des cadres voisins. Ensuite, nous proposons un nouveau module d’attention qui agrège les caractéristiques de boîtes améliorées à court terme afin d’exploiter l’information spatio-temporelle à long terme. Ce module utilise pour la première fois, dans le domaine de la détection d’objets dans les vidéos, les caractéristiques géométriques à long terme. Enfin, une double tête spatio-temporelle est alimentée à la fois par les informations spatiales du cadre de référence et par les informations agrégées prenant en compte le contexte temporel à court et à long terme. Nous avons évalué notre approche sur cinq jeux de données de détection d’objets dans les vidéos présentant des caractéristiques très différentes, afin de démontrer sa robustesse dans un large éventail de scénarios. Des tests statistiques non paramétriques montrent que notre méthode surpasse l’état de l’art. Notre code est disponible à l’adresse suivante : https://github.com/daniel-cores/SLTnet.