il y a 6 mois

Résumé

Face à l’explosion des données vidéo, les classificateurs actuels basés sur des extraits (clip-level) — coûteux en ressources — deviennent de plus en plus impraticables. Nous proposons un cadre efficace pour la reconnaissance d’actions dans des vidéos non tronquées, utilisant l’audio comme mécanisme d’aperçu afin d’éliminer à la fois les redondances visuelles à court et à long terme. Premièrement, nous introduisons une architecture ImgAud2Vid, qui génère des caractéristiques au niveau des extraits en extrayant des informations à partir de modalités plus légères — une seule image accompagnée de son — réduisant ainsi la redondance temporelle à court terme pour une reconnaissance efficace au niveau des extraits. Deuxièmement, en s’appuyant sur ImgAud2Vid, nous proposons ImgAud-Skimming, un réseau à mémoire à longue et courte terme basé sur l’attention, qui sélectionne de manière itérative les moments pertinents dans les vidéos non tronquées, réduisant ainsi la redondance temporelle à long terme pour une reconnaissance efficace au niveau de la vidéo. Des expériences étendues sur quatre jeux de données de reconnaissance d’actions démontrent que notre méthode atteint l’état de l’art en termes à la fois de précision de reconnaissance et de vitesse.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Reconnaissance D'action

Multimodal

Compréhension D'images

Multimodal

Vision Par Ordinateur

Tâche

Ruohan Gao Tae-Hyun Oh Kristen Grauman Lorenzo Torresani

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Reconnaissance D'action

Multimodal

Compréhension D'images

Multimodal

Vision Par Ordinateur

Tâche

Ruohan Gao Tae-Hyun Oh Kristen Grauman Lorenzo Torresani

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Auditionner pour regarder : reconnaissance d’actions par prévisualisation audio | Articles | HyperAI

Command Palette

Auditionner pour regarder : reconnaissance d’actions par prévisualisation audio

Ruohan Gao Tae-Hyun Oh Kristen Grauman Lorenzo Torresani

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Auditionner pour regarder : reconnaissance d’actions par prévisualisation audio

Ruohan Gao Tae-Hyun Oh Kristen Grauman Lorenzo Torresani

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Auditionner pour regarder : reconnaissance d’actions par prévisualisation audio

Ruohan Gao Tae-Hyun Oh Kristen Grauman Lorenzo Torresani

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters