HyperAIHyperAI
il y a 17 jours

Meta-DMoE : S’adapter au décalage de domaine par méta-distillation à partir d’un mélange d’experts

Tao Zhong, Zhixiang Chi, Li Gu, Yang Wang, Yuanhao Yu, Jin Tang
Meta-DMoE : S’adapter au décalage de domaine par méta-distillation à partir d’un mélange d’experts
Résumé

Dans cet article, nous abordons le problème du décalage de domaine. La plupart des méthodes existantes effectuent l'entraînement sur plusieurs domaines sources à l'aide d'un seul modèle, qui est ensuite utilisé de manière uniforme sur tous les domaines cibles inconnus. De telles approches sont sous-optimales, car chaque domaine cible présente des particularités propres qui ne sont pas prises en compte. En outre, s'attendre à ce qu'un entraînement à modèle unique puisse acquérir une connaissance étendue à partir de plusieurs domaines sources va à l'encontre de l'intuition : le modèle tend à privilégier l'apprentissage d'éléments invariants au domaine, ce qui peut entraîner un transfert de connaissances négatif. Dans ce travail, nous proposons un cadre novateur pour l’adaptation sans surveillance au moment du test, formulé comme un processus de distillation de connaissances afin de contrer le décalage de domaine. Plus précisément, nous utilisons une architecture Mélange d’Experts (Mixture-of-Experts, MoE) comme enseignants, où chaque expert est entraîné indépendamment sur un domaine source différent afin de maximiser sa spécialité. Devant un domaine cible au moment du test, un petit ensemble de données non étiquetées est échantillonné afin d’interroger les connaissances contenues dans le MoE. Étant donné que les domaines sources sont corrélés aux domaines cibles, un agrégateur basé sur un transformateur combine les connaissances spécifiques au domaine en analysant les relations interdomaines. La sortie ainsi obtenue est utilisée comme signal de supervision pour adapter un réseau de prédiction étudiant au domaine cible. Nous introduisons par ailleurs l’apprentissage méta afin de forcer l’agrégateur à distiller uniquement des connaissances positives, tout en permettant au réseau étudiant d’adapter rapidement ses performances. Des expériences étendues montrent que la méthode proposée surpasser l’état de l’art et valident l’efficacité de chaque composant introduit. Notre code est disponible à l’adresse suivante : https://github.com/n3il666/Meta-DMoE.

Meta-DMoE : S’adapter au décalage de domaine par méta-distillation à partir d’un mélange d’experts | Articles de recherche récents | HyperAI