il y a 2 mois

Tous les modèles ne sont pas égaux : Prédire la transférabilité des modèles dans un espace de Fisher auto-défiant

Wenqi Shao; Xun Zhao; Yixiao Ge; Zhaoyang Zhang; Lei Yang; Xiaogang Wang; Ying Shan; Ping Luo

Résumé

Ce document aborde un problème important consistant à classer les réseaux neuronaux profonds pré-entraînés et à sélectionner ceux qui sont le plus transférables pour les tâches en aval. Ce défi est dû au fait que le classement vérité-terrain des modèles pour chaque tâche ne peut être généré qu'en affinant les modèles pré-entraînés sur l'ensemble de données cible, une méthode brute force et coûteuse en termes de calcul. Des méthodes avancées récentes ont proposé plusieurs métriques légères de transférabilité pour prédire les résultats de l'affinage. Cependant, ces approches ne capturent que des représentations statiques et négligent la dynamique de l'affinage. À cet égard, ce document propose une nouvelle métrique de transférabilité appelée \textbf{A}nalyse \textbf{D}iscriminante \textbf{F}isher \textbf{A}uto-défieuse (\textbf{ADFA}) (Self-challenging Fisher Discriminant Analysis), qui présente de nombreux avantages attractifs que les travaux existants n'ont pas. Premièrement, ADFA peut intégrer les caractéristiques statiques dans un espace Fisher et les affiner pour améliorer la séparabilité entre les classes. Deuxièmement, ADFA utilise un mécanisme auto-défieuse pour encourager différents modèles pré-entraînés à se distinguer sur des exemples difficiles. Troisièmement, ADFA peut facilement sélectionner plusieurs modèles pré-entraînés pour la combinaison de modèles. Des expériences étendues menées sur 33 modèles pré-entraînés pour 11 tâches en aval montrent que ADFA est efficace, performante et robuste lorsqu'il s'agit d'évaluer la transférabilité des modèles pré-entraînés. Par exemple, comparativement à la méthode NLEEP de pointe, ADFA montre une amélioration moyenne de 59,1 % tout en apportant un accélération de 22,5 fois en temps réel. Le code sera disponible à l'adresse \url{https://github.com/TencentARC/SFDA}.