LogME : Évaluation Pratique des Modèles Pré-entraînés pour l'Apprentissage par Transfert

Ce travail étudie la sélection de modèles pré-entraînés adaptés à la tâche, un problème peu exploré consistant à évaluer des modèles pré-entraînés pour une tâche cible et à en sélectionner les meilleurs parmi le modèle zoo \emph{sans réajustement fin}. Quelques travaux pilotes ont abordé ce problème dans le contexte du transfert de modèles pré-entraînés supervisés vers des tâches de classification, mais ils ne peuvent pas gérer les nouveaux modèles pré-entraînés non supervisés ou les tâches de régression. Dans le but d'élaborer une méthode d'évaluation pratique, nous proposons d'estimer la valeur maximale de la preuve des étiquettes en fonction des caractéristiques extraites par les modèles pré-entraînés. Contrairement au maximum de vraisemblance, la preuve maximale est \emph{insensible au surapprentissage}, tandis que son calcul coûteux peut être considérablement réduit grâce à notre algorithme soigneusement conçu. Le logarithme de la preuve maximale (LogME) peut être utilisé pour évaluer les modèles pré-entraînés en apprentissage par transfert : un modèle pré-entraîné avec une valeur LogME élevée est susceptible d'avoir de bonnes performances en transfert. Le LogME est \emph{rapide, précis et général}, se positionnant comme la première méthode pratique pour évaluer les modèles pré-entraînés. Comparé au réajustement fin brutal, le LogME apporte jusqu'à 3000 fois plus de rapidité en temps réel et nécessite seulement 1 \% de l'emprise mémoire. Il surpassa largement les méthodes antérieures dans leur cadre respectif et s'applique également à de nouveaux cadres. Il est suffisamment général pour couvrir divers types de modèles pré-entraînés (pré-entraînement supervisé et non supervisé), tâches descendantes (classification et régression) et modalités (vision et langage). Le code source est disponible dans ce dépôt : \href{https://github.com/thuml/LogME}{https://github.com/thuml/LogME}.