Verständnis des Selbsttrainings für eine graduale Domänenanpassung

Maschinelles Lernsysteme müssen sich Datenverteilungen anpassen, die sich im Laufe der Zeit verändern, beispielsweise in Anwendungen wie Sensornetzwerken, Wahrnehmungsmodulen autonomer Fahrzeuge oder Gehirn-Maschine-Schnittstellen. Wir betrachten die graduale Domänenanpassung, bei der das Ziel darin besteht, einen ursprünglich auf einer Quell-Domäne trainierten Klassifikator anzupassen, wobei lediglich unbeschriftete Daten zur Verfügung stehen, die sich schrittweise in ihrer Verteilung der Ziel-Domäne annähern. Wir beweisen die erste nicht-triviale obere Schranke für den Fehler des Selbsttrainings bei graduellen Verteilungsverschiebungen, unter Bedingungen, bei denen eine direkte Anpassung an die Ziel-Domäne zu unbeschränktem Fehler führen kann. Die theoretische Analyse liefert algorithmische Einsichten, die darauf hinweisen, dass Regularisierung und Label-Sharpening bereits dann entscheidend sind, wenn unendlich viele Daten vorliegen, und nahelegen, dass Selbsttraining besonders gut für Verschiebungen mit kleinem Wasserstein-∞-Abstand funktioniert. Die Ausnutzung der graduellen Verschiebungsstruktur führt zu höheren Genauigkeiten auf einem rotierenden MNIST-Datensatz sowie auf einem realistischen Portraits-Datensatz.