Vers un apprentissage auto-supervisé durable

Bien que de plus en plus coûteux en termes de formation, la plupart des modèles d’apprentissage auto-supervisé (SSL) sont régulièrement entraînés depuis le début sans être pleinement exploités, car seuls quelques modèles d’état de l’art (SOTA) sont utilisés pour les tâches en aval. Dans ce travail, nous explorons un cadre SSL durable soumis à deux défis majeurs : i) apprendre un nouveau modèle SSL plus puissant à partir d’un modèle SSL préentraîné existant, également appelé modèle « de base », de manière économique ; ii) permettre que l’entraînement du nouveau modèle soit compatible avec divers modèles de base. Nous proposons une méthode appelée Target-Enhanced Conditional (TEC), qui introduit deux composants dans les approches SSL basées sur la reconstruction de masques. Premièrement, nous proposons des cibles améliorées par relation entre patches, qui renforcent la cible fournie par le modèle de base et incitent le nouveau modèle à apprendre des connaissances sur les relations sémantiques issues du modèle de base à partir d’entrées incomplètes. Ce renforcement de la cible et cette amélioration de la tâche aident le nouveau modèle à dépasser le modèle de base, en imposant un apprentissage supplémentaire des relations entre patches pour traiter des entrées incomplètes. Deuxièmement, nous introduisons un adaptateur conditionnel qui ajuste de manière adaptative les prédictions du nouveau modèle afin de les aligner avec la cible produite par différents modèles de base. Des résultats expérimentaux étendus montrent que notre approche TEC accélère significativement le processus d’apprentissage et améliore également les modèles SSL de base d’état de l’art, tels que MAE et iBOT, ouvrant ainsi une voie exploratoire vers un apprentissage auto-supervisé durable.