Masked Modeling Duo : Apprentissage de représentations en incitant les deux réseaux à modéliser l'entrée

Les Autoencodeurs Masqués constituent une méthode d’apprentissage auto-supervisée simple mais puissante. Toutefois, ils apprennent des représentations de manière indirecte, en reconstruisant les patches d’entrée masqués. Plusieurs méthodes apprennent les représentations directement en prédisant les représentations des patches masqués ; toutefois, nous pensons qu’utiliser tous les patches pour encoder les signaux d’apprentissage est sous-optimal. Nous proposons une nouvelle méthode, appelée Masked Modeling Duo (M2D), qui apprend des représentations directement tout en tirant ses signaux d’apprentissage uniquement à partir des patches masqués. Dans M2D, le réseau en ligne encode les patches visibles et prédit les représentations des patches masqués, tandis que le réseau cible, un encodeur à momentum, encode les patches masqués. Pour prédire efficacement les représentations cibles, le réseau en ligne doit bien modéliser l’entrée, tout comme le réseau cible doit également bien la modéliser afin de s’accorder avec les prédictions du réseau en ligne. Ainsi, les représentations apprises devraient mieux modéliser l’entrée. Nous avons validé M2D en apprenant des représentations audio polyvalentes, et M2D a atteint de nouvelles performances de pointe sur des tâches telles que UrbanSound8K, VoxCeleb1, AudioSet20K, GTZAN et SpeechCommandsV2. Nous avons également validé l’efficacité de M2D pour les images à l’aide d’ImageNet-1K dans l’annexe.