HyperAIHyperAI

Command Palette

Search for a command to run...

Réseaux à double résolution pour la détection d'activités temporelles dans les vidéos

Kumara Kahatapitiya Michael S. Ryoo

Résumé

Dans cet article, nous introduisons les Réseaux à Double Flux (Coarse-Fine Networks), une architecture à deux flux qui tire parti de différentes abstractions de résolution temporelle afin d’apprendre de meilleures représentations vidéo pour les mouvements à long terme. Les modèles vidéo traditionnels traitent les entrées à une (ou quelques) résolution temporelle fixe, sans sélection dynamique de trames. Toutefois, nous soutenons qu’un traitement simultané de plusieurs résolutions temporelles, effectué de manière dynamique en apprenant à estimer l’importance de chaque trame, peut considérablement améliorer les représentations vidéo, en particulier dans le domaine de la localisation d’activités temporelles. À cette fin, nous proposons (1) Grid Pool, une couche d’agrégation temporelle apprise permettant d’extraire des caractéristiques grossières, et (2) Multi-stage Fusion, un mécanisme d’attention spatio-temporelle pour fusionner un contexte à fine-grain avec les caractéristiques grossières. Nous démontrons que notre méthode surpasse les états de l’art pour la détection d’actions sur des jeux de données publics, notamment Charades, tout en réduisant de manière significative la charge computationnelle et la consommation mémoire. Le code est disponible à l’adresse suivante : https://github.com/kkahatapitiya/Coarse-Fine-Networks


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp