Co-Tuning für das Transfer-Lernen

Die Feinabstimmung vortrainierter tiefer neuronalen Netze (DNNs) an ein Ziel-Dataset, auch bekannt als Transferlernen, wird in der Computer Vision und NLP weit verbreitet eingesetzt. Da task-spezifische Schichten hauptsächlich kategoriale Informationen enthalten und die Kategorien je nach Dataset variieren, übertragen Praktiker vortrainierte Modelle lediglich teilweise, indem sie die task-spezifischen Schichten entfernen und lediglich die unteren Schichten feinabstimmen. Es ist jedoch eine riskante Verschwendung, task-spezifische Parameter einfach zu ignorieren, die bis zu 20 % der Gesamtanzahl an Parametern in vortrainierten Modellen ausmachen können. Um vortrainierte Modelle vollständig zu übertragen, schlagen wir einen zweistufigen Rahmen namens Co-Tuning vor: (i) Lernen der Beziehung zwischen Quell- und Zielkategorien aus dem vortrainierten Modell sowie kalibrierten Vorhersagen; (ii) gemeinsame Supervision des Feinabstimmungsprozesses durch Ziellabels (One-Hot-Labels) sowie durch Quelllabels (probabilistische Labels), die mittels der Kategorienbeziehung transformiert wurden. Eine einfache Implementierung dieses Rahmens zeigt starke empirische Ergebnisse in vier visuellen Klassifikationsaufgaben und einer NLP-Klassifikationsaufgabe, wobei bis zu 20 % relative Verbesserung erzielt werden. Während state-of-the-art-Feinabstimmungstechniken hauptsächlich darauf abzielen, Regularisierung bei begrenzten Daten einzusetzen, ist Co-Tuning nicht nur in mittelgroßen Datensätzen (100 Proben pro Klasse) wirksam, sondern auch in großen Datensätzen (1000 Proben pro Klasse), in denen Regularisierungsmethoden gegenüber der herkömmlichen Feinabstimmung keine Vorteile bieten. Co-Tuning beruht auf der typischerweise gültigen Annahme, dass das vortrainierte Dataset ausreichend vielfältig ist, was seine breite Anwendbarkeit nahelegt.