Domain-adaptive selbstüberwachtes Vortraining für das Erkennen von Gesichtern und Körpern in Zeichnungen

Zeichnungen sind mächtige Mittel der bildhaften Abstraktion und Kommunikation.Das Verständnis verschiedener Formen von Zeichnungen, einschließlich digitaler Kunst, Cartoons und Comics, ist ein wichtiges Problem für die Computer-Vision- und Computer-Grafik-Gemeinschaften. Obwohl es große Mengen an digitalisierten Zeichnungen aus Comic-Büchern und Cartoons gibt, enthalten diese erhebliche stilistische Variationen, die teure manuelle Beschriftung für das Training domänenspezifischer Erkennungsmodelle erforderlich machen. In dieser Arbeit zeigen wir, wie selbstüberwachtes Lernen auf Basis eines Lehrer-Schüler-Netzwerks mit einem modifizierten Design zur Aktualisierung des Schüler-Netzwerks verwendet werden kann, um Gesichts- und Körperteil-Erkennungsmodelle zu erstellen. Unsere Konfiguration ermöglicht es, große Mengen an unbeschrifteten Daten aus dem Zielbereich zu nutzen, wenn Beschriftungen nur für einen kleinen Teil davon bereitgestellt werden. Wir demonstrieren zudem, dass Stilvermittlung in unseren Lernprozess integriert werden kann, um Erkennungsmodelle mit Hilfe einer großen Menge an außerdomänen beschrifteten Bildern aus natürlichen Bildern (d.h., Bilder aus der realen Welt) zu initialisieren. Unsere kombinierte Architektur liefert Erkennungsmodelle mit Stand-der-Technik-(SOTA) und nahezu Stand-der-Technik-Leistung unter Verwendung minimaler Annotierungsarbeit. Unser Code ist unter https://github.com/barisbatuhan/DASS_Detector verfügbar.