HyperAIHyperAI
vor 17 Tagen

Domänenverallgemeinerung unter Verwendung vortrainierter Modelle ohne Feintuning

Ziyue Li, Kan Ren, Xinyang Jiang, Bo Li, Haipeng Zhang, Dongsheng Li
Domänenverallgemeinerung unter Verwendung vortrainierter Modelle ohne Feintuning
Abstract

Das Feintuning vorgebildeter Modelle ist eine verbreitete Praxis in Aufgaben der Domänenverallgemeinerung (Domain Generalization, DG). Allerdings ist das Feintuning aufgrund der stetig wachsenden Größe vorgebildeter Modelle meist rechenintensiv. Noch wichtiger ist, dass es zu Überanpassung an die Quelldomänen führen kann und die Verallgemeinerungsfähigkeit beeinträchtigen kann, wie kürzlich gezeigt wurde. Generell verfügen vorgebildete Modelle über ein gewisses Maß an Verallgemeinerungsfähigkeit und können für spezifische Domänen und Stichproben eine annehmbare Leistung erzielen. Dennoch kann ihre Verallgemeinerungsleistung je nach Testdomäne – und sogar innerhalb derselben Domäne – erheblich variieren, was Herausforderungen für die optimale Nutzung vorgebildeter Modelle in DG-Aufgaben mit sich bringt. In diesem Paper stellen wir ein neuartiges Paradigma zur Domänenverallgemeinerung vor, das verschiedene vorgebildete Modelle besser nutzen soll, und nennen es „Specialized Ensemble Learning for Domain Generalization (SEDGE)“. Zunächst wird ein linearer Label-Space-Adapter auf festgehaltenen vorgebildeten Modellen trainiert, der die Ausgaben des vorgebildeten Modells in den Labelraum der Ziel-Domäne transformiert. Anschließend wird ein Ensemble-Netzwerk vorgestellt, das die Spezialisierung der Modelle berücksichtigt und dynamisch geeignete vorgebildete Modelle zur Vorhersage jedes Testbeispiels auswählt. Experimentelle Studien an mehreren Benchmarks zeigen, dass SEDGE im Vergleich zu starken Baselines – einschließlich der State-of-the-Art-Methode in DG-Aufgaben – erhebliche Leistungsverbesserungen erzielt, dabei jedoch die Anzahl der trainierbaren Parameter um ca. 99 % und die Trainingszeit um ca. 99,5 % reduziert.

Domänenverallgemeinerung unter Verwendung vortrainierter Modelle ohne Feintuning | Neueste Forschungsarbeiten | HyperAI