Mehrkomponenten-Bildübersetzung für tiefe Domänenverallgemeinerung

Domänenanpassung (Domain Adaption, DA) und Domänenverallgemeinerung (Domain Generalization, DG) sind zwei eng verwandte Methoden, die sich beide mit der Aufgabe befassen, Etiketten einem nicht etikettierten Datensatz zuzuweisen. Der einzige Unterschied zwischen diesen Ansätzen besteht darin, dass DA während der Trainingsphase auf die Ziel-Daten zugreifen kann, während die Ziel-Daten bei DG während der gesamten Trainingsphase unbekannt bleiben. Die Aufgabe der DG ist herausfordernd, da wir keine vorherige Kenntnis der Ziel-Beispiele haben. Wenn DA-Methoden direkt auf DG angewendet werden, indem die Ziel-Daten einfach aus dem Training ausgeschlossen werden, führt dies zu schlechten Ergebnissen für eine gegebene Aufgabe. In dieser Arbeit adressieren wir die Herausforderung der Domänenverallgemeinerung auf zwei Arten. In unserem ersten Ansatz schlagen wir eine neuartige tiefgreifende Architektur für Domänenverallgemeinerung vor, die synthetische Daten verwendet, die von einem Generativen Widersprüchlichen Netzwerk (Generative Adversarial Network, GAN) erzeugt werden. Die Diskrepanz zwischen den generierten und synthetischen Bildern wird unter Verwendung bestehender Domänenunterschiedsmaße wie des maximalen Mittelwertunterschieds oder der Korrelationsausrichtung minimiert. In unserem zweiten Ansatz führen wir ein Protokoll ein, um DA-Methoden in einem DG-Szenario anzuwenden, indem wir die Ziel-Daten aus der Trainingsphase ausschließen, den Quell-Datensatz in Trainings- und Validierungsdaten aufteilen und die Validierungsdaten als Ziel-Daten für DA behandeln. Wir führen umfangreiche Experimente auf vier Benchmark-Datensätzen durch, die verschiedene Domänen abdecken. Die experimentellen Ergebnisse zeigen, dass unser vorgeschlagenes Modell den aktuellen Stand der Technik in Bezug auf DG übertrifft.