il y a 6 mois

Résumé

Cet article présente une nouvelle méthode pour la synthèse vidéo supervisée. Afin de surmonter les limitations des architectures existantes basées sur les réseaux de neurones récurrents (RNN), notamment en ce qui concerne la modélisation des dépendances entre des cadres éloignés dans le temps et la capacité à paralléliser le processus d'entraînement, le modèle développé repose sur l'utilisation de mécanismes d'attention auto-attention pour estimer l'importance des cadres vidéo. Contrairement aux approches antérieures basées sur l'attention, qui modélisent les dépendances entre cadres en observant toute la séquence de cadres, notre méthode combine des mécanismes d'attention multi-têtes globale et locale afin de découvrir différentes manières de modéliser ces dépendances à différentes échelles de granularité. En outre, les mécanismes d'attention utilisés intègrent une composante qui encode la position temporelle des cadres vidéo — un élément crucial lors de la génération d'un résumé vidéo. Des expériences menées sur deux jeux de données (SumMe et TVSum) démontrent l'efficacité du modèle proposé par rapport aux méthodes d'attention existantes, ainsi que sa compétitivité par rapport à d'autres approches de pointe en synthèse vidéo supervisée. Une étude d'ablation portant sur nos principaux composants proposés — à savoir l'usage conjoint des mécanismes d'attention multi-têtes globale et locale, associés à une composante d'encodage de position absolue — met en évidence leurs contributions respectives à la performance globale de la synthèse vidéo.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Transformer

Traitement Vidéo

Apprentissage Profond

Domaine De Recherche

Approche/Framework

Vision Par Ordinateur

Tâche

Ioannis Patras Vasileios Mezaris Georgios Balaouras Evlampios Apostolidis

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Transformer

Traitement Vidéo

Apprentissage Profond

Domaine De Recherche

Approche/Framework

Vision Par Ordinateur

Tâche

Ioannis Patras Vasileios Mezaris Georgios Balaouras Evlampios Apostolidis

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Combinaison de l'attention globale et locale avec un encodage de position pour la synthèse vidéo

Ioannis Patras Vasileios Mezaris Georgios Balaouras Evlampios Apostolidis

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Combinaison de l'attention globale et locale avec un encodage de position pour la synthèse vidéo

Ioannis Patras Vasileios Mezaris Georgios Balaouras Evlampios Apostolidis

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Combinaison de l'attention globale et locale avec un encodage de position pour la synthèse vidéo

Ioannis Patras Vasileios Mezaris Georgios Balaouras Evlampios Apostolidis

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters