il y a un mois

VideoBERT : Un modèle conjoint pour l'apprentissage de la représentation vidéo et linguistique

Chen Sun; Austin Myers; Carl Vondrick; Kevin Murphy; Cordelia Schmid

Résumé

L'apprentissage auto-supervisé est devenu de plus en plus important pour exploiter l'abondance de données non étiquetées disponibles sur des plateformes comme YouTube. Alors que la plupart des approches existantes apprennent des représentations de bas niveau, nous proposons un modèle visuel-linguistique conjoint pour apprendre des caractéristiques de haut niveau sans aucune supervision explicite. En particulier, inspirés par ses récents succès dans le domaine du modèle linguistique, nous nous appuyons sur le modèle BERT pour apprendre des distributions conjointes bidirectionnelles sur des séquences de tokens visuels et linguistiques, dérivées respectivement de la quantification vectorielle des données vidéo et des sorties de reconnaissance vocale prêtes à l'emploi. Nous utilisons VideoBERT dans de nombreuses tâches, notamment la classification d'actions et la légendage vidéo. Nous montrons qu'il peut être appliqué directement à la classification à vocabulaire ouvert, et confirmons que d'importantes quantités de données d'entraînement et les informations inter-modales sont cruciales pour les performances. De plus, nous surpassons l'état de l'art en matière de légendage vidéo, et les résultats quantitatifs vérifient que le modèle apprend des caractéristiques sémantiques de haut niveau.