Negative Data Augmentation

Die Datenverstärkung wird häufig eingesetzt, um Datensätze durch synthetische Beispiele zu erweitern, die gemäß der zugrundeliegenden Datenerverteilung generiert werden. Um ein breiteres Spektrum an Augmentationsstrategien zu ermöglichen, untersuchen wir negative Datenverstärkungsstrategien (NDA), die absichtlich außerhalb der Verteilung liegende (out-of-distribution) Beispiele erzeugen. Wir zeigen, dass solche negativen, außerhalb der Verteilung liegenden Beispiele Informationen über den Träger (Support) der Datenerverteilung liefern und für die generative Modellierung sowie die Repräsentationslernung genutzt werden können. Wir stellen ein neues GAN-Trainingsziel vor, bei dem NDA als zusätzliche Quelle synthetischer Daten für den Diskriminator verwendet wird. Unter geeigneten Bedingungen beweisen wir, dass die Optimierung dieses Ziels weiterhin die wahre Datenerverteilung erfasst, gleichzeitig jedoch den Generator direkt dazu bringen kann, Beispiele zu vermeiden, die die gewünschte Struktur fehlen. Empirisch erreichen Modelle, die mit unserer Methode trainiert wurden, eine verbesserte bedingte/unbedingte Bildgenerierung sowie eine verbesserte Fähigkeit zur Anomalieerkennung. Darüber hinaus integrieren wir dieselbe negative Datenverstärkungsstrategie in einen kontrastiven Lernrahmen zur selbstüberwachten Repräsentationslernung für Bilder und Videos und erzielen eine verbesserte Leistung bei nachgeschalteten Aufgaben wie Bildklassifikation, Objekterkennung und Aktenerkennung. Diese Ergebnisse deuten darauf hin, dass Vorwissen darüber, was keine gültigen Daten darstellt, eine effektive Form von schwacher Supervision über eine Vielzahl von unüberwachten Lernaufgaben hinweg darstellt.