vor 17 Tagen

Domänenverallgemeinerung durch Mutual-Information-Regularisierung mit vortrainierten Modellen

Junbum Cha, Kyungjae Lee, Sungrae Park, Sanghyuk Chun

Abstract

Domain Generalization (DG) zielt darauf ab, ein verallgemeinertes Modell für eine unbekannte Zieldomäne zu lernen, wobei lediglich begrenzte Quelldomänen zur Verfügung stehen. Bisherige Ansätze zur DG sind daran gescheitert, domineninvariante Darstellungen ausschließlich aus den Quelldomänen zu lernen, da zwischen Trainings- und Testdomänen erhebliche Domänenverschiebungen bestehen. Stattdessen formulieren wir das DG-Ziel neu, indem wir die gegenseitige Information mit einem Orakelmodell nutzen, einem Modell, das sich auf jede mögliche Domäne verallgemeinern lässt. Durch die Approximation des Orakelmodells mittels eines vortrainierten Modells leiten wir eine handhabbare variationalen untere Schranke ab, die wir Mutual Information Regularization with Oracle (MIRO) nennen. Unsere umfassenden Experimente zeigen, dass MIRO die Leistung außerhalb der Verteilung erheblich verbessert. Zudem belegen unsere Skalierungsexperimente, dass je größer die Skala des vortrainierten Modells ist, desto größer die Leistungssteigerung durch MIRO. Der Quellcode ist unter https://github.com/kakaobrain/miro verfügbar.