Mehrsemantisches Fusionsmodell für verallgemeinerte zero-shot Skelettbasierte Aktionserkennung

Die generalisierte zero-shot Skelettbasierte Aktionserkennung (GZSSAR) ist ein neues, herausforderndes Problem in der Computer Vision-Gemeinschaft, das erfordert, dass Modelle Aktionen ohne Trainingsbeispiele erkennen können. Frühere Studien nutzten ausschließlich die Aktionsetiketten von Verbalphrasen als semantische Prototypen zum Lernen der Abbildung von skelettbasierten Aktionen in einen gemeinsamen semantischen Raum. Allerdings beschränken die begrenzten semantischen Informationen der Aktionsetiketten die Generalisierungsfähigkeit von Skelettmerkmalen bei der Erkennung unbekannter Aktionen. Um dieses Dilemma zu lösen, schlagen wir ein Modell zur multisemantischen Fusion (MSF) vor, um die Leistungsfähigkeit von GZSSAR zu verbessern. Dabei werden zwei Arten klassifizierungsbezogener textueller Beschreibungen (nämlich Aktionbeschreibungen und Bewegungsbeschreibungen) als zusätzliche semantische Informationen gesammelt, um die Lerneffizienz allgemein anwendbarer Skelettmerkmale zu erhöhen. Insbesondere wird ein vortrainierter Sprachencoder verwendet, um die Aktionbeschreibungen, Bewegungsbeschreibungen und ursprünglichen Klassifikationsetiketten als Eingaben zu verarbeiten und reichhaltige semantische Merkmale für jede Aktionsklasse zu gewinnen. Ein Skelettkodierer wird implementiert, um Skelettmerkmale zu extrahieren. Anschließend wird ein generativer Modul auf Basis eines variationellen Autoencoders (VAE) eingesetzt, um eine multimodale Ausrichtung zwischen den Skelett- und den semantischen Merkmalen zu lernen. Schließlich wird ein Klassifikationsmodul erstellt, um die Aktionskategorien der Eingabebeispiele zu erkennen. Dabei wird eine gesehen-nichtgesehen Klassifikationsschranke verwendet, um in GZSSAR vorherzusagen, ob das Beispiel aus gesehenen oder nichtgesehenen Aktionsklassen stammt. Die überlegene Leistung im Vergleich zu früheren Modellen bestätigt die Effektivität des vorgeschlagenen MSF-Modells für GZSSAR.