HyperAIHyperAI

Command Palette

Search for a command to run...

Autoencodeurs auto-masqués audiovisuels

Mariana-Iuliana Georgescu Eduardo Fonseca Radu Tudor Ionescu Mario Lucic Cordelia Schmid Anurag Arnab

Résumé

Pouvons-nous exploiter les informations audiovisuelles déjà présentes dans les vidéos afin d’améliorer l’apprentissage non supervisé de représentations ? Pour répondre à cette question, nous étudions diverses architectures et objectifs de préentraînement au sein du cadre des autoencodeurs masqués, inspirés par le succès de méthodes similaires en compréhension du langage naturel et en vision par ordinateur. Nous montrons que nous pouvons obtenir des améliorations significatives sur des tâches de classification audiovisuelle en aval, dépassant l’état de l’art sur les jeux de données VGGSound et AudioSet. De plus, nous démontrons que notre méthode de préentraînement audiovisuel peut être utilisée pour des tâches en aval unimodales multiples à l’aide d’un seul modèle préentraîné audiovisuel. Enfin, nous illustrons la transférabilité de nos représentations, obtenant des résultats audiovisuels de pointe sur Epic Kitchens sans préentraînement spécifique pour ce jeu de données.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp