HyperAIHyperAI

Command Palette

Search for a command to run...

Élargissez vos perspectives pour l'apprentissage vidéo auto-supervisé

Résumé

La plupart des méthodes d'apprentissage auto-supervisé les plus réussies sont formées pour aligner les représentations de deux vues indépendantes extraites des données. Les méthodes les plus avancées dans le domaine de la vidéo s'inspirent des techniques d'images, où ces deux vues sont similaires et extraites par recadrage et augmentation du recadrage résultant. Cependant, ces méthodes négligent un élément crucial dans le domaine de la vidéo : le temps. Nous présentons BraVe, un cadre d'apprentissage auto-supervisé pour la vidéo. Dans BraVe, l'une des vues a accès à une fenêtre temporelle étroite de la vidéo tandis que l'autre vue a un accès large au contenu de la vidéo. Nos modèles apprennent à généraliser à partir de la vue étroite vers le contenu général de la vidéo. De plus, BraVe traite les vues avec différentes architectures de réseaux neuronaux (backbones), permettant l'utilisation d'augmentations alternatives ou de modalités dans la vue large, telles que le flux optique, des images RGB convolées aléatoirement, l'audio ou leurs combinaisons. Nous démontrons que BraVe obtient des résultats d'avant-garde en apprentissage auto-supervisé de représentations sur des benchmarks standard de classification vidéo et audio, notamment UCF101, HMDB51, Kinetics, ESC-50 et AudioSet.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Élargissez vos perspectives pour l'apprentissage vidéo auto-supervisé | Articles | HyperAI