HyperAIHyperAI
il y a 4 mois

Libération du potentiel de la méta-réglage pour la généralisation à faibles échantillons grâce à des experts interpolés parcimonieux

Chen, Shengzhuang ; Tack, Jihoon ; Yang, Yunqiao ; Teh, Yee Whye ; Schwarz, Jonathan Richard ; Wei, Ying
Libération du potentiel de la méta-réglage pour la généralisation à faibles échantillons grâce à des experts interpolés parcimonieux
Résumé

Les récentes réussites suggèrent que l'ajustement fin efficace en termes de paramètres des modèles fondamentaux est la méthode de pointe pour le transfert d'apprentissage en vision, remplaçant la vaste littérature d'alternatives telles que l'apprentissage par méta-apprentissage. En tentant de tirer le meilleur des deux mondes, le méta-ajustement introduit une étape d'optimisation ultérieure des modèles fondamentaux mais n'a jusqu'à présent montré qu'un succès limité et tend crucialement à sous-performer sur les tâches hors distribution (OOD). Dans cet article, nous présentons Sparse MetA-Tuning (SMAT), une méthode inspirée des approches de mélange d'experts parcimonieuses et formée pour isoler automatiquement des sous-ensembles de paramètres pré-entraînés pour le méta-ajustement sur chaque tâche. SMAT surmonte avec succès la sensibilité OOD et répond à l'engagement d'améliorer les capacités de transfert des modèles fondamentaux en vision au-delà de l'ajustement fin efficace en termes de paramètres. Nous établissons de nouveaux résultats de pointe sur une combinaison exigeante du Meta-Dataset enrichi avec des tâches OOD supplémentaires, tant dans les configurations d'adaptation sans supervision (zero-shot) que basées sur les gradients. De plus, nous fournissons une analyse approfondie de la supériorité des motifs de parcimonie appris par rapport aux motifs conçus manuellement pour les méthodes d'experts parcimonieux, ainsi que de l'importance primordiale du niveau de parcimonie pour équilibrer la généralisation entre les distributions et hors distribution. Notre code est librement accessible.

Libération du potentiel de la méta-réglage pour la généralisation à faibles échantillons grâce à des experts interpolés parcimonieux | Articles de recherche | HyperAI