Tiefer, Breiter und Künstlerischer Domänen-Verallgemeinerung

Das Problem der Domänenverallgemeinerung besteht darin, aus mehreren Trainingsdomänen zu lernen und ein domänenunabhängiges Modell zu extrahieren, das dann auf eine unbekannte Domäne angewendet werden kann. Die Domänenverallgemeinerung (DG) hat eine klare Motivation in Kontexten, in denen es Zieldomänen mit unterschiedlichen Merkmalen gibt, aber nur wenige Daten für das Training zur Verfügung stehen. Ein Beispiel hierfür ist die Erkennung in Skizzenbildern, die deutlich abstrakter und seltener sind als Fotos. Trotzdem wurden DG-Methoden hauptsächlich an Foto-basierten Benchmarks evaluiert, bei denen sowohl das Problem der Domänenunterschiedlichkeit als auch das der Datenknappheit minimal sein können. Wir argumentieren, dass diese Benchmarks übermäßig einfach sind, und zeigen, dass einfache Deep-Learning-Baselines überraschend gut auf ihnen abschneiden. In diesem Artikel leisten wir zwei Hauptbeiträge: Erstens bauen wir auf den vorteilhaften Eigenschaften von Deep-Learning-Methoden auf, die robust gegenüber Domänenschwankungen sind, und entwickeln ein CNN-Modell mit niedrigem Rang für end-to-end DG-Lernen. Zweitens erarbeiten wir einen DG-Benchmark-Datensatz, der Foto-, Skizzen-, Cartoon- und Malereidomänen abdeckt. Dies ist sowohl praktisch relevanter als auch schwieriger (größerer Domänenschwund) als bestehende Benchmarks. Die Ergebnisse zeigen, dass unsere Methode bestehende DG-Alternativen übertrifft und unser Datensatz eine bedeutend größere DG-Herausforderung bietet, um zukünftige Forschung anzutreiben.