vor 17 Tagen

Sparse Mixture-of-Experts sind domaingeneralisierbare Lerner

Bo Li, Yifei Shen, Jingkang Yang, Yezhen Wang, Jiawei Ren, Tong Che, Jun Zhang, Ziwei Liu

Abstract

Das menschliche visuelle Wahrnehmungssystem kann leicht auf außerhalb der Verteilung liegende visuelle Daten generalisieren, was modernen maschinellen Lernmodellen weit überlegen ist. Domain Generalization (DG) zielt darauf ab, diese Lücke zu schließen, wobei bestehende DG-Methoden hauptsächlich auf die Gestaltung der Verlustfunktion fokussieren. In diesem Artikel untersuchen wir eine orthogonale Richtung, nämlich die Architekturgestaltung des Hauptnetzwerks (Backbone). Diese Motivation stützt sich auf eine empirische Beobachtung: Transformer-basierte Modelle, die mit der empirischen Risikominimierung (ERM) trainiert werden, übertrumpfen CNN-basierte Modelle, die state-of-the-art (SOTA) DG-Algorithmen verwenden, auf mehreren DG-Datensätzen. Wir entwickeln einen formalen Rahmen, um die Robustheit eines Netzwerks gegenüber Verteilungsschiebungen zu charakterisieren, indem wir die Ausrichtung seiner Architektur mit den Korrelationen im Datensatz untersuchen. Diese Analyse leitet uns zur Entwicklung eines neuen DG-Modells auf Basis von Vision Transformers, namens Generalizable Mixture-of-Experts (GMoE), an. Umfangreiche Experimente auf DomainBed zeigen, dass GMoE, wenn es mit ERM trainiert wird, SOTA-DG-Baselines erheblich übertrifft. Darüber hinaus ist GMoE komplementär zu bestehenden DG-Methoden, und seine Leistung steigt erheblich, wenn es gemeinsam mit DG-Algorithmen trainiert wird.