HyperAIHyperAI

Command Palette

Search for a command to run...

Réseau graphique d'auto-couture vidéo pour la localisation d'actions temporelles

Chen Zhao Ali Thabet Bernard Ghanem

Résumé

La localisation d’actions temporelles (TAL) dans les vidéos constitue une tâche difficile, notamment en raison de la grande variabilité des échelles temporelles des actions. Les actions courtes représentent généralement une part importante des jeux de données, mais elles sont souvent celles qui obtiennent les performances les plus faibles. Dans cet article, nous abordons le défi posé par les actions courtes et proposons une solution multi-niveaux basée sur une approche dite de « graphe auto-entrelacé vidéo » (VSGN, Video Self-Stitching Graph Network). Notre architecture VSGN repose sur deux composants clés : le mécanisme d’auto-entrelacement vidéo (VSS) et le réseau pyramidale de graphes à croisement d’échelles (xGPN). Dans VSS, nous concentrons notre attention sur une courte période d’une vidéo et agrandis cette portion le long de l’axe temporel afin d’obtenir une échelle plus large. Nous intégrons alors dans une même séquence d’entrée le clip original et sa version agrandie, afin d’exploiter les propriétés complémentaires des deux échelles. Le composant xGPN exploite ultérieurement les corrélations entre échelles à l’aide d’une pyramide de réseaux de graphes à croisement d’échelles, chacun comprenant un module hybride permettant d’agréger des caractéristiques à la fois entre différentes échelles et à l’intérieur de la même échelle. Le modèle VSGN améliore non seulement la qualité des représentations des caractéristiques, mais génère également davantage d’ancres positives pour les actions courtes ainsi que plus d’échantillons d’apprentissage courts. Les expériences montrent que VSGN améliore significativement la précision de localisation des actions courtes, tout en atteignant des performances de pointe sur les benchmarks THUMOS-14 et ActivityNet-v1.3.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Réseau graphique d'auto-couture vidéo pour la localisation d'actions temporelles | Articles | HyperAI