vor 17 Tagen

Reichhaltige Semantik verbessert Few-shot-Lernen

Mohamed Afham, Salman Khan, Muhammad Haris Khan, Muzammal Naseer, Fahad Shahbaz Khan

Abstract

Das menschliche Lernen profitiert von multimodalen Eingaben, die oft reiche Semantik beinhalten (z. B. Beschreibung von Objektmerkmalen während des Lernprozesses). Dadurch können wir generalisierbare Konzepte aus sehr begrenzten visuellen Beispielen erlernen. Derzeitige Few-Shot-Lernmethoden (FSL) verwenden jedoch numerische Klassenlabels, um Objektklassen zu kennzeichnen, die keine reiche semantische Information über die gelernten Konzepte liefern. In dieser Arbeit zeigen wir, dass sich die FSL-Leistung durch die Verwendung von „klassenbasierten“ Sprachbeschreibungen verbessern lässt, die mit minimalen Anmerkungskosten erzeugt werden können. Gegeben ein Support-Set und Queries haben wir die zentrale Idee, einen „Bottleneck“-visuellen Merkmal (hybrider Prototyp) zu erstellen, der während des Trainings als Hilfsaufgabe zur Generierung sprachlicher Beschreibungen der Klassen genutzt wird. Wir entwickeln einen auf Transformer basierenden Vorwärts- und Rückwärts-Encoding-Mechanismus, um visuelle und semantische Tokens miteinander zu verknüpfen und komplexe Beziehungen zwischen den beiden Modalitäten zu erfassen. Die Anforderung, dass die Prototypen semantische Informationen über die Klassenbeschreibungen beibehalten, wirkt als Regularisierung der visuellen Merkmale und verbessert deren Generalisierungsfähigkeit auf neue Klassen bei der Inferenz. Darüber hinaus legt diese Strategie ein menschliches Vorwissen auf die gelernten Darstellungen zugrunde, wodurch sichergestellt wird, dass das Modell visuelle und semantische Konzepte korrekt verknüpft, was die Interpretierbarkeit des Modells erhöht. Unsere Experimente an vier Datensätzen sowie Ablationsstudien belegen den Nutzen einer effektiven Modellierung reicher Semantik für das Few-Shot-Lernen.