Command Palette
Search for a command to run...
Apprentissage non supervisé efficace avec des représentations cibles contextualisées pour la vision, la parole et le langage
Apprentissage non supervisé efficace avec des représentations cibles contextualisées pour la vision, la parole et le langage
Alexei Baevski Arun Babu Wei-Ning Hsu Michael Auli
Résumé
Les algorithmes actuels d'apprentissage auto-supervisé sont souvent spécifiques à un mode et nécessitent des ressources computationnelles importantes. Pour relever ces défis, nous améliorons l'efficacité d'apprentissage de data2vec, une méthode d'objectif d'apprentissage généralisable à plusieurs modalités. Contrairement aux approches classiques, nous ne codons pas les tokens masqués, utilisons un décodeur convolutif rapide et amortissons l'effort nécessaire à la construction des représentations enseignantes. data2vec 2.0 tire profit des riches représentations cibles contextualisées introduites dans data2vec, ce qui permet de concevoir un apprentissage auto-supervisé rapide. Des expériences sur la classification d'images ImageNet-1K montrent que data2vec 2.0 atteint une précision équivalente à celle des Autoencodeurs Masqués avec un temps de pré-entraînement réduit de 16,4 fois. Sur la tâche de reconnaissance vocale Librispeech, il atteint des performances comparables à wav2vec 2.0 en seulement 10,6 fois moins de temps. Enfin, sur le benchmark GLUE pour l'understanding du langage naturel, data2vec 2.0 égale un modèle RoBERTa réentraîné en une durée réduite de moitié. En acceptant une légère perte de vitesse au profit d'une meilleure précision, data2vec 2.0 atteint une précision top-1 de 86,8 % sur ImageNet-1K avec un modèle ViT-L entraîné pendant 150 époques.