Command Palette
Search for a command to run...
Apprentissage des représentations en matryoshka
Apprentissage des représentations en matryoshka
Résumé
Les représentations apprises constituent un élément central des systèmes modernes d’apprentissage automatique, servant à une multitude de tâches ultérieures. Lors de l’entraînement de telles représentations, il est souvent difficile de connaître précisément les contraintes computationnelles et statistiques propres à chaque tâche finale. Dans ce contexte, des représentations à capacité fixe et rigide peuvent s’avérer soit trop puissantes, soit insuffisantes pour la tâche considérée. Cela nous amène à nous interroger : pouvons-nous concevoir une représentation flexible capable de s’adapter à plusieurs tâches ultérieures, même en présence de ressources computationnelles variables ? Notre contribution principale est l’apprentissage de représentations Matryoshka (MRL), qui encode l’information à différentes granularités et permet à une seule représentation embarquée de s’ajuster aux contraintes computationnelles des tâches ultérieures. Le MRL modifie minimalement les pipelines existants d’apprentissage de représentations et n’impose aucun coût supplémentaire lors de l’inférence ou du déploiement. Le MRL apprend des représentations de grossières à fines, aussi précises et riches que des représentations de faible dimension entraînées indépendamment. La flexibilité offerte par les représentations Matryoshka apprises permet : (a) une réduction jusqu’à 14 fois de la taille des embeddings pour la classification sur ImageNet-1K, tout en maintenant le même niveau de précision ; (b) des accélérations réelles allant jusqu’à 14 fois pour la recherche à grande échelle sur ImageNet-1K et ImageNet-4K ; et (c) une amélioration allant jusqu’à 2 % de précision pour la classification peu fréquente à faible nombre d’exemples, tout en conservant la robustesse des représentations d’origine. Enfin, nous démontrons que le MRL s’étend naturellement à des jeux de données à l’échelle du web (ImageNet, JFT), sur diverses modalités — vision (ViT, ResNet), vision + langage (ALIGN) et langage (BERT). Le code et les modèles préentraînés MRL sont mis à disposition librement sur GitHub : https://github.com/RAIVNLab/MRL.