vor 17 Tagen

Wave-SAN: Wellenlettabhängiges Stil-Augmentierungsnetzwerk für few-shot-Lernverfahren über Domänen hinweg

Yuqian Fu, Yu Xie, Yanwei Fu, Jingjing Chen, Yu-Gang Jiang

Abstract

Bisherige Few-Shot-Lern-(FSL-)Ansätze beschränken sich hauptsächlich auf natürliche Bilder allgemeiner Konzepte und Kategorien. Diese Ansätze gehen von einer sehr hohen visuellen Ähnlichkeit zwischen Quell- und Zielklassen aus. Im Gegensatz dazu zielt der kürzlich vorgeschlagene Cross-Domain Few-Shot Learning (CD-FSL) darauf ab, Wissen von allgemeinen Naturbildern mit vielen gelabelten Beispielen auf neuartige, domänenspezifische Zielkategorien mit nur wenigen gelabelten Beispielen zu übertragen. Die zentrale Herausforderung von CD-FSL liegt in der erheblichen Datenverschiebung zwischen Quell- und Zielbereichen, die typischerweise in Form völlig unterschiedlicher visueller Stile auftritt. Dies macht es äußerst schwierig, klassische FSL-Methoden direkt auf die CD-FSL-Aufgabe zu übertragen. Um diesem Problem zu begegnen, untersucht diese Arbeit das CD-FSL-Problem durch die Spannung der Stilverteilungen des Quelldatensatzes. Insbesondere wird die Wavelet-Transformation eingeführt, um visuelle Repräsentationen in niedrigfrequente Komponenten – wie Form und Stil – und hochfrequente Komponenten – wie Textur – zu zerlegen. Um die Robustheit unseres Modells gegenüber visuellen Stilen zu erhöhen, werden die Quellbilder durch den Austausch der Stile ihrer niedrigfrequenten Komponenten augmentiert. Wir schlagen ein neuartiges Style-Augmentation-(StyleAug)-Modul vor, um diese Idee umzusetzen. Darüber hinaus präsentieren wir ein Self-Supervised-Learning-(SSL)-Modul, das sicherstellt, dass die Vorhersagen der stil-augmentierten Bilder semantisch ähnlich zu den unveränderten bleiben. Dadurch wird das potenzielle Problem einer semantischen Drift beim Austausch von Stilen vermieden. Umfassende Experimente auf zwei CD-FSL-Benchmarks belegen die Wirksamkeit unseres Ansatzes. Unsere Codes und Modelle werden veröffentlicht.