SalNAS : Recherche efficace d'architecture neuronale pour la prédiction de la salience avec distillation de connaissances auto

Les récentes avancées dans les réseaux de neurones convolutifs profonds ont considérablement amélioré les performances de la prédiction de la salience. Cependant, la configuration manuelle des architectures de ces réseaux nécessite une expertise en connaissances du domaine et peut encore être fastidieuse et sujette aux erreurs. Pour résoudre ce problème, nous proposons un nouveau cadre de recherche d'architecture neuronale (Neural Architecture Search, NAS) pour la prédiction de la salience, avec deux contributions principales. Premièrement, nous construisons un supernet pour la prédiction de la salience qui intègre tous les architectures candidates au moyen d'un réseau partageant les poids. En intégrant une convolution dynamique dans l'encodeur-décodeur du supernet, nous l'appelons SalNAS. Deuxièmement, bien que SalNAS soit très efficace (20,98 millions de paramètres), il peut souffrir d'un manque de généralisation. Pour remédier à cela, nous proposons une approche de distillation par auto-connaissance, appelée Self-KD, qui entraîne le modèle étudiant SalNAS avec une information moyenne pondérée entre la vérité terrain et la prédiction du modèle enseignant. Le modèle enseignant, bien qu'il partage la même architecture, contient les poids les mieux performants choisis par validation croisée. Self-KD peut généraliser efficacement sans avoir besoin de calculer le gradient dans le modèle enseignant, permettant ainsi un système d'entraînement performant.En utilisant Self-KD, SalNAS surpasse les autres modèles de prédiction de salience les plus avancés dans la plupart des critères d'évaluation sur sept jeux de données de référence tout en restant un modèle léger. Le code sera disponible sur https://github.com/chakkritte/SalNAS.