HyperAIHyperAI
il y a 15 jours

Autoencodeurs auto-masqués audiovisuels

Mariana-Iuliana Georgescu, Eduardo Fonseca, Radu Tudor Ionescu, Mario Lucic, Cordelia Schmid, Anurag Arnab
Autoencodeurs auto-masqués audiovisuels
Résumé

Pouvons-nous exploiter les informations audiovisuelles déjà présentes dans les vidéos afin d’améliorer l’apprentissage non supervisé de représentations ? Pour répondre à cette question, nous étudions diverses architectures et objectifs de préentraînement au sein du cadre des autoencodeurs masqués, inspirés par le succès de méthodes similaires en compréhension du langage naturel et en vision par ordinateur. Nous montrons que nous pouvons obtenir des améliorations significatives sur des tâches de classification audiovisuelle en aval, dépassant l’état de l’art sur les jeux de données VGGSound et AudioSet. De plus, nous démontrons que notre méthode de préentraînement audiovisuel peut être utilisée pour des tâches en aval unimodales multiples à l’aide d’un seul modèle préentraîné audiovisuel. Enfin, nous illustrons la transférabilité de nos représentations, obtenant des résultats audiovisuels de pointe sur Epic Kitchens sans préentraînement spécifique pour ce jeu de données.

Autoencodeurs auto-masqués audiovisuels | Articles de recherche récents | HyperAI