HyperAIHyperAI

Command Palette

Search for a command to run...

RGNet : Un réseau unifié pour la recherche et l'ancrage de clips dans les vidéos longues

Hannan Tanveer ; Islam Md Mohaiminul ; Seidl Thomas ; Bertasius Gedas

Résumé

La localisation de moments spécifiques au sein de vidéos longues (de 20 à 120 minutes) représente un défi considérable, comparable à chercher une aiguille dans une botte de foin. L'adaptation des méthodes existantes de contextualisation pour les vidéos courtes (de 5 à 30 secondes) à ce problème entraîne des performances médiocres. Étant donné que la plupart des vidéos de la vie réelle, telles que celles présentes sur YouTube et en AR/VR, sont de longue durée, il est crucial d'aborder cette question. Les méthodes actuelles fonctionnent généralement en deux étapes : la recherche de clips et la contextualisation. Cependant, ce processus disjoint limite la compréhension fine des événements par le module de recherche, essentielle pour la détection de moments spécifiques. Nous proposons RGNet, qui intègre profondément la recherche de clips et la contextualisation dans un seul réseau capable de traiter les vidéos longues à plusieurs niveaux granulaires, tels que des clips et des images individuelles. Son composant central est un nouvel encodeur transformer, l'RG-Encoder, qui unifie les deux étapes grâce à des caractéristiques partagées et une optimisation mutuelle. L'encodeur incorpore un mécanisme d'attention éparse et une perte d'attention pour modéliser conjointement les différents niveaux granulaires. De plus, nous introduisons une technique d'échantillonnage contrastif de clips afin de simuler le paradigme des vidéos longues durant l'entraînement. RGNet dépasse les méthodes précédentes, montrant des performances d'avant-garde sur les jeux de données de contextualisation temporelle des vidéos longues (LVTG) MAD et Ego4D.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
RGNet : Un réseau unifié pour la recherche et l'ancrage de clips dans les vidéos longues | Articles | HyperAI