Alignment-Uniformity bewusste Darstellungslernmethodik für zero-shot Video-Klassifikation

Die meisten Methoden zur Zero-Shot-Videoklassifikation zielen darauf ab, visuell-semantische Repräsentationen innerhalb der gesehenen Klassen auszurichten, was die Generalisierbarkeit auf unbekannte Klassen einschränkt. Um die Generalisierbarkeit des Modells zu verbessern, präsentieren wir einen end-to-end-Framework, der sowohl die Ausrichtung als auch die Gleichmäßigkeit der Repräsentationen sowohl für gesehene als auch für unbekannte Klassen beibehält. Konkret formulieren wir eine überwachte kontrastive Verlustfunktion, die gleichzeitig die Ausrichtung visuell-semantischer Merkmale (d. h. Alignment) und die gleichmäßige Verteilung der gelernten Merkmale (d. h. Uniformity) fördert. Im Gegensatz zu bestehenden Ansätzen, die lediglich die Ausrichtung berücksichtigen, führen wir die Uniformity ein, um das maximale Informationspotential der vorhandenen Merkmale zu bewahren und die Wahrscheinlichkeit zu erhöhen, dass unbeobachtete Merkmale in der Nähe der beobachteten Daten liegen. Darüber hinaus synthetisieren wir Merkmale unbekannter Klassen durch die Einführung eines Klassen-Generators, der die Merkmale gesehener Klassen interpoliert und extrapoliert. Zudem führen wir zwei Metriken, Nähe (closeness) und Streuung (dispersion), ein, um diese beiden Eigenschaften zu quantifizieren und als neue Maße für die Generalisierbarkeit des Modells zu dienen. Experimente zeigen, dass unsere Methode die State-of-the-Art-Methoden deutlich übertrifft, mit einer relativen Verbesserung von 28,1 % auf UCF101 und 27,0 % auf HMDB51. Der Quellcode ist verfügbar.