HyperAIHyperAI

Command Palette

Search for a command to run...

Mehrsemantisches Fusionsmodell für verallgemeinerte zero-shot Skelettbasierte Aktionserkennung

Ming-Zhe Li Zhen Jia Zhang Zhang Zhanyu Ma Liang Wang

Zusammenfassung

Die generalisierte zero-shot Skelettbasierte Aktionserkennung (GZSSAR) ist ein neues, herausforderndes Problem in der Computer Vision-Gemeinschaft, das erfordert, dass Modelle Aktionen ohne Trainingsbeispiele erkennen können. Frühere Studien nutzten ausschließlich die Aktionsetiketten von Verbalphrasen als semantische Prototypen zum Lernen der Abbildung von skelettbasierten Aktionen in einen gemeinsamen semantischen Raum. Allerdings beschränken die begrenzten semantischen Informationen der Aktionsetiketten die Generalisierungsfähigkeit von Skelettmerkmalen bei der Erkennung unbekannter Aktionen. Um dieses Dilemma zu lösen, schlagen wir ein Modell zur multisemantischen Fusion (MSF) vor, um die Leistungsfähigkeit von GZSSAR zu verbessern. Dabei werden zwei Arten klassifizierungsbezogener textueller Beschreibungen (nämlich Aktionbeschreibungen und Bewegungsbeschreibungen) als zusätzliche semantische Informationen gesammelt, um die Lerneffizienz allgemein anwendbarer Skelettmerkmale zu erhöhen. Insbesondere wird ein vortrainierter Sprachencoder verwendet, um die Aktionbeschreibungen, Bewegungsbeschreibungen und ursprünglichen Klassifikationsetiketten als Eingaben zu verarbeiten und reichhaltige semantische Merkmale für jede Aktionsklasse zu gewinnen. Ein Skelettkodierer wird implementiert, um Skelettmerkmale zu extrahieren. Anschließend wird ein generativer Modul auf Basis eines variationellen Autoencoders (VAE) eingesetzt, um eine multimodale Ausrichtung zwischen den Skelett- und den semantischen Merkmalen zu lernen. Schließlich wird ein Klassifikationsmodul erstellt, um die Aktionskategorien der Eingabebeispiele zu erkennen. Dabei wird eine gesehen-nichtgesehen Klassifikationsschranke verwendet, um in GZSSAR vorherzusagen, ob das Beispiel aus gesehenen oder nichtgesehenen Aktionsklassen stammt. Die überlegene Leistung im Vergleich zu früheren Modellen bestätigt die Effektivität des vorgeschlagenen MSF-Modells für GZSSAR.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp