Steigerung der diskriminativen visuellen Repräsentationslernens mit szenerieunabhängiger Mixup

Mixup ist eine gut etablierte datenabhängige Datenaugmentierungstechnik für tiefe neuronale Netze (DNNs), die aus zwei Teilaufgaben besteht: der Mixup-Erzeugung und der Klassifikation. Allerdings beschränkt die aktuell dominierende Online-Trainingsmethode Mixup auf überwachtes Lernen (SL), wobei das Ziel der Erzeugungsaufgabe auf ausgewählte Stichprobenpaare beschränkt ist, anstatt die gesamte Datenumgebung (data manifold) zu berücksichtigen. Dies könnte zu triviale Lösungen führen. Um diese Einschränkungen zu überwinden, untersuchen wir umfassend das Ziel der Mixup-Erzeugung und schlagen \textbf{S}zenario-\textbf{A}gnostisches \textbf{Mix}up (SAMix) sowohl für SL- als auch für selbstüberwachtes Lernen (SSL) vor. Konkret formulieren und verifizieren wir die Hypothese, dass das Ziel der Mixup-Erzeugung darin besteht, die lokale Glattheit zwischen zwei gemischten Klassen zu optimieren, unter der Bedingung globaler Unterscheidbarkeit gegenüber anderen Klassen. Dementsprechend führen wir eine $η$-balancierte Mixup-Verlustfunktion ein, um die komplementäre Lernung der beiden Teilziele zu ermöglichen. Gleichzeitig wird ein label-freies Erzeugungs-Unter-Netzwerk entworfen, das effektiv nicht-triviale Mixup-Proben bereitstellt und die Übertragbarkeit verbessert. Darüber hinaus reduzieren wir die Rechenkosten beim Online-Training durch die Einführung einer vortrainierten Variante, SAMix$^\mathcal{P}$, die eine bessere Effizienz und Generalisierbarkeit erzielt. Umfangreiche Experimente an neun SL- und SSL-Benchmarks belegen die konsistente Überlegenheit und Vielseitigkeit von SAMix im Vergleich zu bestehenden Methoden.