Théorie de l'information matricielle pour l'apprentissage auto-supervisé

Le cadre d’encodage à entropie maximale offre une perspective unifiée pour de nombreuses méthodes d’apprentissage non contrastives, telles que SimSiam, Barlow Twins et MEC. Inspirés par ce cadre, nous introduisons Matrix-SSL, une nouvelle approche qui exploite la théorie des matrices pour interpréter la perte d’encodage à entropie maximale comme une perte d’uniformité matricielle. De plus, Matrix-SSL améliore la méthode d’encodage à entropie maximale en intégrant de manière fluide une perte d’alignement matriciel, permettant un alignement direct des matrices de covariance issues de différentes branches. Les résultats expérimentaux montrent que Matrix-SSL surpasser les méthodes de pointe sur le jeu de données ImageNet dans un cadre d’évaluation linéaire, ainsi que sur MS-COCO pour les tâches d’apprentissage transféré. Plus précisément, dans les tâches d’apprentissage transféré sur MS-COCO, notre méthode dépasse les méthodes de pointe précédentes telles que MoCo v2 et BYOL de jusqu’à 3,3 %, avec seulement 400 époques de pré-entraînement contre 800 époques auparavant. Nous avons également exploré l’intégration de l’apprentissage de représentations dans le cadre de modélisation linguistique en fin-tunant un modèle de 7 milliards de paramètres à l’aide d’une perte de cross-entropie matricielle, obtenant un gain de 3,1 % sur le jeu de données GSM8K par rapport à la perte de cross-entropie standard. Le code est disponible à l’adresse suivante : https://github.com/yifanzhang-pro/Matrix-SSL.