HyperAIHyperAI
vor 2 Monaten

Feinabstufung durch strukturerhaltende und thematische Erweiterung voranbringen

Michaeli, Eyal ; Fried, Ohad
Feinabstufung durch strukturerhaltende und thematische Erweiterung voranbringen
Abstract

Feinmaschige visuelle Klassifikation (FGVC) beinhaltet die Klassifizierung eng verwandter Subklassen. Diese Aufgabe ist schwierig aufgrund der subtilen Unterschiede zwischen den Klassen und der hohen Varianz innerhalb der Klassen. Darüber hinaus sind FGVC-Datensätze in der Regel klein und schwer zu sammeln, was die Notwendigkeit effektiver Datenverstärkung (Data Augmentation) unterstreicht. Neueste Fortschritte bei Text-zu-Bild-Diffusionsmodellen bieten neue Möglichkeiten zur Verstärkung von Klassifikationsdatensätzen. Obwohl diese Modelle bereits verwendet wurden, um Trainingsdaten für Klassifikationsaufgaben zu erzeugen, bleibt ihre Effektivität bei der vollständigen Datensatztrainierung von FGVC-Modellen noch weitgehend unerforscht. Neuere Techniken, die auf Text2Image-Erzeugung oder Img2Img-Methoden basieren, haben oft Schwierigkeiten, Bilder zu erzeugen, die die Klasse korrekt darstellen, während sie gleichzeitig eine signifikante Erhöhung der Datensatzdiversität durch Modifikation ermöglichen. Um diese Herausforderungen anzugehen, präsentieren wir SaSPA: Struktur- und Objekterhaltende Verstärkung (Structure and Subject Preserving Augmentation). Im Gegensatz zu jüngsten Methoden verwendet unser Ansatz keine realen Bilder als Leitbild, was die Generierungsflexibilität erhöht und eine größere Vielfalt fördert. Um eine genaue Darstellung der Klasse sicherzustellen, setzen wir auf konditionierende Mechanismen, insbesondere durch das Konditionieren auf Bildkanten und Objektdarstellungen. Wir führen umfangreiche Experimente durch und vergleichen SaSPA sowohl mit traditionellen als auch mit neueren generativen Datenverstärkungsverfahren. SaSPA übertrifft konsistent alle etablierten Baseline-Methoden in verschiedenen Szenarien, einschließlich vollständiger Datensatztrainierung, kontextualer Verzerrung und Few-Shot-Klassifikation. Zudem zeigen unsere Ergebnisse interessante Muster im Einsatz synthetischer Daten für FGVC-Modelle; zum Beispiel finden wir einen Zusammenhang zwischen dem Umfang an realen Daten und dem optimalen Anteil an synthetischen Daten. Der Quellcode ist unter https://github.com/EyalMichaeli/SaSPA-Aug verfügbar.

Feinabstufung durch strukturerhaltende und thematische Erweiterung voranbringen | Neueste Forschungsarbeiten | HyperAI