Verallgemeinertes Zero- und Few-Shot-Lernen durch ausgerichtete variationelle Autoencoder

Viele Ansätze im Bereich des generalisierten Zero-Shot-Lernens basieren auf der multimodalen Abbildung zwischen dem Bildmerkmalsraum und dem Klassen-Embedding-Raum. Da beschriftete Bilder kostspielig sind, ist eine Richtung die Erweiterung des Datensatzes durch die Generierung von Bildern oder Bildmerkmalen. Allerdings fehlen bei der ersten Methode feine Details, während die zweite Methode das Lernen einer Abbildung erfordert, die mit den Klassen-Embeddings verbunden ist. In dieser Arbeit gehen wir einen Schritt weiter in der Merkmalsgenerierung und schlagen ein Modell vor, bei dem ein gemeinsamer latenter Raum von Bildmerkmalen und Klassen-Embeddings durch modalitätsspezifische ausgerichtete Variationsautoencoder gelernt wird. Dies ermöglicht es uns, die erforderlichen diskriminativen Informationen über Bilder und Klassen in den latenten Merkmalen zu behalten, auf denen wir dann einen Softmax-Klassifikator trainieren. Der Schlüssel zu unserem Ansatz besteht darin, dass wir die aus den Bildern und der Nebeninformation gelernten Verteilungen ausrichten, um latente Merkmale zu konstruieren, die die wesentliche multimodale Information zu bisher nicht gesehenen Klassen enthalten. Wir evaluieren unsere gelernten latenten Merkmale an mehreren Benchmark-Datensätzen, nämlich CUB, SUN, AWA1 und AWA2, und etablieren einen neuen Stand der Technik sowohl im generalisierten Zero-Shot-Lernen als auch im Few-Shot-Lernen. Darüber hinaus zeigen unsere Ergebnisse auf ImageNet mit verschiedenen Zero-Shot-Spalten, dass unsere latenten Merkmale sich auch in großen Skaleneinstellungen gut verallgemeinern lassen.