HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage coopératif de modèles audio et vidéo à partir de la synchronisation auto-supervisée

Bruno Korbar Du Tran Lorenzo Torresani

Résumé

Il existe une corrélation naturelle entre les éléments visuels et auditifs d'une vidéo. Dans ce travail, nous exploitons cette connexion pour apprendre des modèles généraux et efficaces pour l'analyse audio et vidéo à partir d'une synchronisation temporelle auto-supervisée. Nous démontrons qu'un schéma d'apprentissage par curriculum calibré, un choix soigneux d'exemples négatifs et l'utilisation d'une perte contrastive sont des ingrédients essentiels pour obtenir des représentations multisensorielles puissantes à partir de modèles optimisés pour discerner la synchronisation temporelle des paires audio-vidéo. Sans aucun autre affinage, les caractéristiques audio résultantes atteignent des performances supérieures ou comparables à l'état de l'art sur des benchmarks établis de classification audio (DCASE2014 et ESC-50). En même temps, notre sous-réseau visuel fournit une initialisation très efficace pour améliorer la précision des modèles de reconnaissance d'actions basés sur la vidéo : par rapport à l'apprentissage à partir de zéro, notre préformation auto-supervisée offre une augmentation remarquable de +19,9 % en précision de reconnaissance d'actions sur UCF101 et un gain de +17,7 % sur HMDB51.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Apprentissage coopératif de modèles audio et vidéo à partir de la synchronisation auto-supervisée | Articles | HyperAI