Multi-modales zykluskonsistentes generalisiertes Zero-Shot-Lernen

Im Bereich des generalisierten Zero-Shot-Lernens (GZSL) werden die Klassenmengen in gesehene und ungesehene Klassen aufgeteilt, wobei das Training auf den semantischen Merkmalen sowohl der gesehenen als auch der ungesehenen Klassen sowie auf den visuellen Darstellungen nur der gesehenen Klassen basiert. Bei der Testphase werden hingegen die visuellen Darstellungen sowohl der gesehenen als auch der ungesehenen Klassen verwendet. Aktuelle Methoden lösen das GZSL-Problem, indem sie eine Transformation vom visuellen in den semantischen Raum lernen und von der Annahme ausgehen, dass die Verteilung der Klassen in beiden Räumen relativ ähnlich ist. Solche Methoden neigen dazu, die visuellen Darstellungen der ungesehenen Testklassen in die semantischen Merkmale einer der gesehenen Klassen zu transformieren, anstatt in die semantischen Merkmale der korrekten ungesehenen Klasse, was zu einer niedrigen Genauigkeit bei GZSL-Klassifikation führt. Kürzlich wurden generative adversäre Netzwerke (GANs) untersucht, um visuelle Darstellungen der ungesehenen Klassen aus ihren semantischen Merkmalen zu synthetisieren – die synthetisierten Darstellungen sowohl der gesehenen als auch der ungesehenen Klassen werden dann verwendet, um den GZSL-Klassifikator zu trainieren. Dieser Ansatz hat sich als effektiv erwiesen, um die Genauigkeit von GZSL-Klassifikation zu verbessern; es besteht jedoch kein Garantie, dass synthetische visuelle Darstellungen ihre semantischen Merkmale in einem multimodalen zyklisch konsistenten Verfahren wiederherstellen können. Diese Einschränkung kann zu synthetischen visuellen Darstellungen führen, die ihre semantischen Merkmale nicht gut repräsentieren. In dieser Arbeit schlagen wir eine solche Einschränkung vor, basierend auf einer neuen Regularisierung für das Training von GANs, die erzwingt, dass die generierten visuellen Merkmale ihre ursprünglichen semantischen Merkmale rekonstruieren. Sobald unser Modell mit dieser multimodal zyklisch konsistenten semantischen Kompatibilität trainiert wurde, können wir dann repräsentativere visuelle Darstellungen sowohl für die gesehenen als auch – und wichtiger noch – für die ungesehenen Klassen synthetisieren. Unser vorgeschlagener Ansatz zeigt die besten GZSL-Klassifikationsresultate im Vergleich zur bisherigen Forschung in mehreren öffentlich zugänglichen Datensätzen.