il y a 6 mois

Résumé

La plupart des modèles modernes de reconnaissance vidéo sont conçus pour fonctionner sur des extraits vidéo courts (par exemple, de 5 à 10 secondes). Il est donc difficile d’appliquer ces modèles aux tâches d’analyse de films longs, qui exigent généralement des raisonnements temporels à longue portée sophistiqués. Les transformateurs vidéo récemment introduits partiellement résolvent ce problème en utilisant une attention auto-attentionnelle à longue portée. Toutefois, en raison du coût quadratique de l’attention auto-attentionnelle, ces modèles sont souvent coûteux et peu pratiques à utiliser. À la place, nous proposons ViS4mer, un modèle vidéo efficace à longue portée qui combine les avantages de l’attention auto-attentionnelle et de la couche récemment introduite de séquence d’état structuré (S4). Notre modèle utilise un encodeur Transformer standard pour l’extraction de caractéristiques spatio-temporelles à courte portée, suivi d’un décodeur multi-échelle temporel basé sur S4 pour le raisonnement temporel à longue portée. En réduisant progressivement la résolution spatio-temporelle et la dimension des canaux à chaque couche du décodeur, ViS4mer apprend des dépendances spatio-temporelles complexes à longue portée dans une vidéo. En outre, ViS4mer est 2,63 fois plus rapide et nécessite 8 fois moins de mémoire GPU qu’un modèle basé uniquement sur l’attention auto-attentionnelle équivalent. Par ailleurs, ViS4mer atteint des résultats de pointe dans 6 des 9 tâches de classification vidéo de films longs sur le benchmark Long Video Understanding (LVU). En outre, nous démontrons que notre approche se généralise efficacement à d’autres domaines, obtenant des résultats compétitifs sur les jeux de données Breakfast et COIN relatifs aux activités procédurales. Le code est disponible publiquement à l’adresse suivante : https://github.com/md-mohaiminul/ViS4mer.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Transformer

Vision Par Ordinateur

Reconnaissance D'action

Approche/Framework

Vision Par Ordinateur

Tâche

Md Mohaiminul Islam Gedas Bertasius

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Transformer

Vision Par Ordinateur

Reconnaissance D'action

Approche/Framework

Vision Par Ordinateur

Tâche

Md Mohaiminul Islam Gedas Bertasius

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Classification de longs extraits vidéo avec des modèles vidéo à espace d'état

Md Mohaiminul Islam Gedas Bertasius

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Classification de longs extraits vidéo avec des modèles vidéo à espace d'état

Md Mohaiminul Islam Gedas Bertasius

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Classification de longs extraits vidéo avec des modèles vidéo à espace d'état

Md Mohaiminul Islam Gedas Bertasius

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters