Synthetisierte Klassifizierer für Zero-Shot-Lernen

Bei der gegebenen semantischen Beschreibung von Objektklassen zielt das Zero-Shot-Lernen darauf ab, Objekte von nicht gesehenen Klassen genaustens zu erkennen, für die während des Trainings keine Beispiele zur Verfügung stehen, indem sie mit den gesehenen Klassen in Verbindung gebracht werden, für die beschriftete Beispiele bereitgestellt werden. Wir schlagen vor, dieses Problem aus der Perspektive des Manifold-Lernens anzugehen. Unsere Hauptidee besteht darin, den aus externen Informationen abgeleiteten semantischen Raum mit dem Modellraum auszurichten, der sich mit der Erkennung visueller Merkmale beschäftigt. Zu diesem Zweck führen wir eine Reihe von "Phantom"-Objektklassen ein, deren Koordinaten sowohl im semantischen Raum als auch im Modellraum existieren. Als Basen in einem Wörterbuch können diese Klassen anhand von beschrifteten Daten optimiert werden, sodass die synthetisierten echten Objektklassifizierer eine optimale diskriminative Leistung erzielen. Wir zeigen die überlegene Genauigkeit unseres Ansatzes im Vergleich zum Stand der Technik anhand vier Benchmark-Datensätzen für Zero-Shot-Lernen, einschließlich des vollständigen ImageNet-Fall-2011-Datensatzes mit mehr als 20.000 nicht gesehenen Klassen.