HyperAIHyperAI

Command Palette

Search for a command to run...

VideoBERT : Un modèle conjoint pour l'apprentissage de la représentation vidéo et linguistique

Chen Sun Austin Myers Carl Vondrick Kevin Murphy Cordelia Schmid

Résumé

L'apprentissage auto-supervisé est devenu de plus en plus important pour exploiter l'abondance de données non étiquetées disponibles sur des plateformes comme YouTube. Alors que la plupart des approches existantes apprennent des représentations de bas niveau, nous proposons un modèle visuel-linguistique conjoint pour apprendre des caractéristiques de haut niveau sans aucune supervision explicite. En particulier, inspirés par ses récents succès dans le domaine du modèle linguistique, nous nous appuyons sur le modèle BERT pour apprendre des distributions conjointes bidirectionnelles sur des séquences de tokens visuels et linguistiques, dérivées respectivement de la quantification vectorielle des données vidéo et des sorties de reconnaissance vocale prêtes à l'emploi. Nous utilisons VideoBERT dans de nombreuses tâches, notamment la classification d'actions et la légendage vidéo. Nous montrons qu'il peut être appliqué directement à la classification à vocabulaire ouvert, et confirmons que d'importantes quantités de données d'entraînement et les informations inter-modales sont cruciales pour les performances. De plus, nous surpassons l'état de l'art en matière de légendage vidéo, et les résultats quantitatifs vérifient que le modèle apprend des caractéristiques sémantiques de haut niveau.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
VideoBERT : Un modèle conjoint pour l'apprentissage de la représentation vidéo et linguistique | Articles | HyperAI