HyperAIHyperAI

Command Palette

Search for a command to run...

Meta-DMoE : S’adapter au décalage de domaine par méta-distillation à partir d’un mélange d’experts

Tao Zhong Zhixiang Chi Li Gu Yang Wang Yuanhao Yu Jin Tang

Résumé

Dans cet article, nous abordons le problème du décalage de domaine. La plupart des méthodes existantes effectuent l'entraînement sur plusieurs domaines sources à l'aide d'un seul modèle, qui est ensuite utilisé de manière uniforme sur tous les domaines cibles inconnus. De telles approches sont sous-optimales, car chaque domaine cible présente des particularités propres qui ne sont pas prises en compte. En outre, s'attendre à ce qu'un entraînement à modèle unique puisse acquérir une connaissance étendue à partir de plusieurs domaines sources va à l'encontre de l'intuition : le modèle tend à privilégier l'apprentissage d'éléments invariants au domaine, ce qui peut entraîner un transfert de connaissances négatif. Dans ce travail, nous proposons un cadre novateur pour l’adaptation sans surveillance au moment du test, formulé comme un processus de distillation de connaissances afin de contrer le décalage de domaine. Plus précisément, nous utilisons une architecture Mélange d’Experts (Mixture-of-Experts, MoE) comme enseignants, où chaque expert est entraîné indépendamment sur un domaine source différent afin de maximiser sa spécialité. Devant un domaine cible au moment du test, un petit ensemble de données non étiquetées est échantillonné afin d’interroger les connaissances contenues dans le MoE. Étant donné que les domaines sources sont corrélés aux domaines cibles, un agrégateur basé sur un transformateur combine les connaissances spécifiques au domaine en analysant les relations interdomaines. La sortie ainsi obtenue est utilisée comme signal de supervision pour adapter un réseau de prédiction étudiant au domaine cible. Nous introduisons par ailleurs l’apprentissage méta afin de forcer l’agrégateur à distiller uniquement des connaissances positives, tout en permettant au réseau étudiant d’adapter rapidement ses performances. Des expériences étendues montrent que la méthode proposée surpasser l’état de l’art et valident l’efficacité de chaque composant introduit. Notre code est disponible à l’adresse suivante : https://github.com/n3il666/Meta-DMoE.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Meta-DMoE : S’adapter au décalage de domaine par méta-distillation à partir d’un mélange d’experts | Articles | HyperAI