Command Palette
Search for a command to run...
Apprentissage coopératif de modèles audio et vidéo à partir de la synchronisation auto-supervisée
Apprentissage coopératif de modèles audio et vidéo à partir de la synchronisation auto-supervisée
Bruno Korbar Du Tran Lorenzo Torresani
Résumé
Il existe une corrélation naturelle entre les éléments visuels et auditifs d'une vidéo. Dans ce travail, nous exploitons cette connexion pour apprendre des modèles généraux et efficaces pour l'analyse audio et vidéo à partir d'une synchronisation temporelle auto-supervisée. Nous démontrons qu'un schéma d'apprentissage par curriculum calibré, un choix soigneux d'exemples négatifs et l'utilisation d'une perte contrastive sont des ingrédients essentiels pour obtenir des représentations multisensorielles puissantes à partir de modèles optimisés pour discerner la synchronisation temporelle des paires audio-vidéo. Sans aucun autre affinage, les caractéristiques audio résultantes atteignent des performances supérieures ou comparables à l'état de l'art sur des benchmarks établis de classification audio (DCASE2014 et ESC-50). En même temps, notre sous-réseau visuel fournit une initialisation très efficace pour améliorer la précision des modèles de reconnaissance d'actions basés sur la vidéo : par rapport à l'apprentissage à partir de zéro, notre préformation auto-supervisée offre une augmentation remarquable de +19,9 % en précision de reconnaissance d'actions sur UCF101 et un gain de +17,7 % sur HMDB51.