HyperAIHyperAI

Command Palette

Search for a command to run...

ECO : Réseau de convolution efficace pour la compréhension en ligne des vidéos

Mohammadreza Zolfaghari Kamaljeet Singh Thomas Brox

Résumé

L'état de l'art en matière de compréhension vidéo souffre de deux problèmes : (1) La majeure partie du raisonnement est effectuée localement dans la vidéo, ce qui fait qu'il manque des relations importantes entre les actions s'étendant sur plusieurs secondes. (2) Bien qu'il existe des méthodes locales avec un traitement rapide par image, le traitement de la vidéo complète n'est pas efficace et entrave une recherche vidéo rapide ou une classification en ligne d'activités à long terme. Dans cet article, nous présentons une architecture de réseau qui prend en compte le contenu à long terme et permet en même temps un traitement rapide par vidéo. Cette architecture repose sur la fusion du contenu à long terme directement au sein du réseau plutôt que dans une fusion postérieure (post-hoc). Associée à une stratégie d'échantillonnage exploitant le fait que les images voisines sont largement redondantes, cette méthode offre une classification d'action et une légendage vidéo de haute qualité jusqu'à 230 vidéos par seconde, où chaque vidéo peut contenir quelques centaines d'images. Notre approche atteint des performances compétitives sur tous les jeux de données tout en étant 10 à 80 fois plus rapide que les méthodes de pointe actuelles.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
ECO : Réseau de convolution efficace pour la compréhension en ligne des vidéos | Articles | HyperAI