HyperAIHyperAI
vor 17 Tagen

Meta-DMoE: Anpassung an Domänenverschiebung durch Meta-Verdampfung aus Mixture-of-Experts

Tao Zhong, Zhixiang Chi, Li Gu, Yang Wang, Yuanhao Yu, Jin Tang
Meta-DMoE: Anpassung an Domänenverschiebung durch Meta-Verdampfung aus Mixture-of-Experts
Abstract

In diesem Artikel behandeln wir das Problem des Domänenverschiebungs (domain shift). Die meisten bestehenden Methoden führen die Trainingsphase auf mehreren Quell-Domänen mit einem einzigen Modell durch, wobei dasselbe trainierte Modell anschließend auf allen unbekannten Ziel-Domänen eingesetzt wird. Solche Ansätze sind suboptimal, da jede Ziel-Domäne ihre eigenen spezifischen Merkmale aufweist, die nicht berücksichtigt werden. Zudem ist es intuitiv fragwürdig, von einer einzigen Modellarchitektur zu erwarten, um umfassendes Wissen aus mehreren Quell-Domänen zu erlernen. Das Modell neigt stattdessen dazu, ausschließlich domäneninvariante Merkmale zu lernen, was zu einer negativen Wissensübertragung führen kann. In dieser Arbeit stellen wir einen neuartigen Rahmen für unsupervised Test-Time Adaptation vor, der als ein Prozess der Wissens-Distillation formuliert ist, um das Problem des Domänenverschiebungs zu bewältigen. Konkret integrieren wir eine Mixture-of-Experts (MoE)-Architektur als Lehrer, wobei jeder Experte getrennt auf einer unterschiedlichen Quell-Domäne trainiert wird, um dessen Spezialisierung zu maximieren. Gegeben eine Ziel-Domäne zur Testzeit wird eine kleine Menge an unlabeled Daten ausgewählt, um Wissen aus der MoE abzurufen. Da die Quell-Domänen mit den Ziel-Domänen korreliert sind, kombiniert ein transformerbasiertes Aggregator-Modul das Domänenwissen durch Analyse der Wechselwirkungen zwischen den Domänen. Das resultierende Output dient als Supervisions-Signal, um ein Schüler-Prädiktionsmodell an die Ziel-Domäne anzupassen. Zusätzlich verwenden wir Meta-Learning, um den Aggregator zu zwingen, nur positives Wissen zu distillieren, und das Schülermodell so zu optimieren, dass es sich schnell an die neue Domäne anpasst. Umfangreiche Experimente zeigen, dass die vorgeschlagene Methode die derzeitigen State-of-the-Art-Methoden übertrifft und die Wirksamkeit jedes einzelnen Komponenten validiert. Der Quellcode ist unter https://github.com/n3il666/Meta-DMoE verfügbar.