HyperAIHyperAI

Command Palette

Search for a command to run...

Auditionner pour regarder : reconnaissance d’actions par prévisualisation audio

Ruohan Gao Tae-Hyun Oh Kristen Grauman Lorenzo Torresani

Résumé

Face à l’explosion des données vidéo, les classificateurs actuels basés sur des extraits (clip-level) — coûteux en ressources — deviennent de plus en plus impraticables. Nous proposons un cadre efficace pour la reconnaissance d’actions dans des vidéos non tronquées, utilisant l’audio comme mécanisme d’aperçu afin d’éliminer à la fois les redondances visuelles à court et à long terme. Premièrement, nous introduisons une architecture ImgAud2Vid, qui génère des caractéristiques au niveau des extraits en extrayant des informations à partir de modalités plus légères — une seule image accompagnée de son — réduisant ainsi la redondance temporelle à court terme pour une reconnaissance efficace au niveau des extraits. Deuxièmement, en s’appuyant sur ImgAud2Vid, nous proposons ImgAud-Skimming, un réseau à mémoire à longue et courte terme basé sur l’attention, qui sélectionne de manière itérative les moments pertinents dans les vidéos non tronquées, réduisant ainsi la redondance temporelle à long terme pour une reconnaissance efficace au niveau de la vidéo. Des expériences étendues sur quatre jeux de données de reconnaissance d’actions démontrent que notre méthode atteint l’état de l’art en termes à la fois de précision de reconnaissance et de vitesse.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp