CLASTER: Clustering mit Verstärkungslernen für Zero-Shot-Action-Erkennung

Zero-Shot-Aktionserkennung ist die Aufgabe, Aktionklassen ohne visuelle Beispiele zu erkennen, sondern lediglich anhand einer semantischen Einbettung, die unsichtbare mit sichtbaren Klassen verbindet. Das Problem kann als das Lernen einer Funktion verstanden werden, die gut auf Instanzen bisher unbekannter Klassen generalisiert, ohne die Unterscheidungsfähigkeit zwischen den Klassen zu verlieren. Neuronale Netze können die komplexen Grenzen zwischen visuellen Klassen modellieren, was ihren Erfolg als überwachte Modelle erklärt. In der Zero-Shot-Lernumgebung übertragen diese hochspezialisierten Klassengrenzen jedoch oft schlecht von bekannten auf unbekannte Klassen. In diesem Paper stellen wir eine zentroidbasierte Darstellung vor, die sowohl visuelle als auch semantische Repräsentationen clusterisiert, alle Trainingsbeispiele gleichzeitig berücksichtigt und dadurch gut auf Instanzen bisher unbekannter Klassen generalisiert. Wir optimieren das Clustering mittels Verstärkendem Lernen, wobei wir zeigen, dass dies für die Wirksamkeit unseres Ansatzes entscheidend ist. Wir bezeichnen den vorgeschlagenen Ansatz als CLASTER und beobachten, dass er in allen Standard-Datensätzen – einschließlich UCF101, HMDB51 und Olympic Sports – konsistent die derzeit beste Leistung erzielt, sowohl im klassischen Zero-Shot-Evaluationsszenario als auch im verallgemeinerten Zero-Shot-Lernansatz. Zudem zeigen wir, dass unser Modell auch im Bildbereich konkurrenzfähig ist und in vielen Szenarien die derzeit beste Leistung übertrifft.