vor 17 Tagen

Zur feinabgestuften Bildklassifikation mit generativen adversarialen Netzwerken und Gesichtslandmarkendetektion

Mahdi Darvish, Mahsa Pouramini, Hamid Bahador

Abstract

Die feinkörnige Klassifikation bleibt eine herausfordernde Aufgabe, da die Unterscheidung zwischen Kategorien das Erlernen komplexer und lokaler Unterschiede erfordert. Die Vielfalt in Pose, Skalierung und Position von Objekten innerhalb eines Bildes macht das Problem zusätzlich erschwerend. Obwohl neuere Vision Transformer-Modelle eine hohe Leistung erzielen, benötigen sie einen umfangreichen Datensatz als Eingabe. Um diesem Problem entgegenzuwirken, nutzten wir GAN-basierte Datenaugmentation, um zusätzliche Datensätze zu generieren. Als Datensatz wählten wir Oxford-IIIT Pets, der 37 Rassen von Katzen und Hunden enthält und durch Variationen in Skalierung, Pose und Beleuchtung die Schwierigkeit der Klassifikationsaufgabe weiter erhöht. Zudem verbesserten wir die Leistung des jüngsten Generativen adversarialen Netzwerks (GAN), des StyleGAN2-ADA-Modells, um realistischere Bilder zu erzeugen und gleichzeitig eine Überanpassung an den Trainingsdatensatz zu vermeiden. Dazu trainierten wir eine angepasste Version von MobileNetV2, um tierische Gesichtsmerkmale vorherzusagen, und schieden die Bilder entsprechend aus. Schließlich kombinierten wir die synthetischen Bilder mit dem ursprünglichen Datensatz und verglichen unsere vorgeschlagene Methode mit der herkömmlichen GAN-Augmentation sowie ohne Augmentation an verschiedenen Teilmengen des Trainingsdatensatzes. Die Wirksamkeit unserer Methode wurde durch die Bewertung der Genauigkeit der feinkörnigen Bildklassifikation auf dem jüngsten Vision Transformer-Modell (ViT) validiert.