HyperAIHyperAI

Command Palette

Search for a command to run...

Sparse Mixture-of-Experts sind domaingeneralisierbare Lerner

Bo Li Yifei Shen Jingkang Yang Yezhen Wang Jiawei Ren Tong Che Jun Zhang Ziwei Liu

Zusammenfassung

Das menschliche visuelle Wahrnehmungssystem kann leicht auf außerhalb der Verteilung liegende visuelle Daten generalisieren, was modernen maschinellen Lernmodellen weit überlegen ist. Domain Generalization (DG) zielt darauf ab, diese Lücke zu schließen, wobei bestehende DG-Methoden hauptsächlich auf die Gestaltung der Verlustfunktion fokussieren. In diesem Artikel untersuchen wir eine orthogonale Richtung, nämlich die Architekturgestaltung des Hauptnetzwerks (Backbone). Diese Motivation stützt sich auf eine empirische Beobachtung: Transformer-basierte Modelle, die mit der empirischen Risikominimierung (ERM) trainiert werden, übertrumpfen CNN-basierte Modelle, die state-of-the-art (SOTA) DG-Algorithmen verwenden, auf mehreren DG-Datensätzen. Wir entwickeln einen formalen Rahmen, um die Robustheit eines Netzwerks gegenüber Verteilungsschiebungen zu charakterisieren, indem wir die Ausrichtung seiner Architektur mit den Korrelationen im Datensatz untersuchen. Diese Analyse leitet uns zur Entwicklung eines neuen DG-Modells auf Basis von Vision Transformers, namens Generalizable Mixture-of-Experts (GMoE), an. Umfangreiche Experimente auf DomainBed zeigen, dass GMoE, wenn es mit ERM trainiert wird, SOTA-DG-Baselines erheblich übertrifft. Darüber hinaus ist GMoE komplementär zu bestehenden DG-Methoden, und seine Leistung steigt erheblich, wenn es gemeinsam mit DG-Algorithmen trainiert wird.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp