HyperAIHyperAI
il y a 18 jours

Auditionner pour regarder : reconnaissance d’actions par prévisualisation audio

Ruohan Gao, Tae-Hyun Oh, Kristen Grauman, Lorenzo Torresani
Auditionner pour regarder : reconnaissance d’actions par prévisualisation audio
Résumé

Face à l’explosion des données vidéo, les classificateurs actuels basés sur des extraits (clip-level) — coûteux en ressources — deviennent de plus en plus impraticables. Nous proposons un cadre efficace pour la reconnaissance d’actions dans des vidéos non tronquées, utilisant l’audio comme mécanisme d’aperçu afin d’éliminer à la fois les redondances visuelles à court et à long terme. Premièrement, nous introduisons une architecture ImgAud2Vid, qui génère des caractéristiques au niveau des extraits en extrayant des informations à partir de modalités plus légères — une seule image accompagnée de son — réduisant ainsi la redondance temporelle à court terme pour une reconnaissance efficace au niveau des extraits. Deuxièmement, en s’appuyant sur ImgAud2Vid, nous proposons ImgAud-Skimming, un réseau à mémoire à longue et courte terme basé sur l’attention, qui sélectionne de manière itérative les moments pertinents dans les vidéos non tronquées, réduisant ainsi la redondance temporelle à long terme pour une reconnaissance efficace au niveau de la vidéo. Des expériences étendues sur quatre jeux de données de reconnaissance d’actions démontrent que notre méthode atteint l’état de l’art en termes à la fois de précision de reconnaissance et de vitesse.

Auditionner pour regarder : reconnaissance d’actions par prévisualisation audio | Articles de recherche récents | HyperAI