HyperAIHyperAI
vor 2 Monaten

TDSM: Triplet-Diffusion für die Skelett-Text-Zuordnung bei der zero-shot Aktionserkennung

Jeonghyeok Do; Munchurl Kim
TDSM: Triplet-Diffusion für die Skelett-Text-Zuordnung bei der zero-shot Aktionserkennung
Abstract

Zunächst stellen wir eine diffusionsbasierte Aktionserkennung mit Zero-Shot-Lernen für Skelettdaten vor. Bei der Zero-Shot-Aktionserkennung auf Basis von Skeletten ist die Anpassung von Skelettmerkmalen an die Textmerkmale von Aktionenlabels entscheidend, um unbekannte Aktionen korrekt vorherzusagen. Frühere Methoden konzentrierten sich auf eine direkte Anpassung zwischen den latenten Räumen von Skelett und Text, aber die Modalitätsunterschiede zwischen diesen Räumen behindern eine robuste Generalisierung. Inspiriert durch die bemerkenswerte Leistung von Text-zu-Bild-Diffusionsmodellen nutzen wir deren Anpassungsfähigkeiten zwischen verschiedenen Modalitäten hauptsächlich während des Rückwärtsdiffusionsprozesses, anstatt ihre generativen Fähigkeiten zu verwenden. Auf dieser Grundlage ist unser Framework als Triplet Diffusion for Skeleton-Text Matching (TDSM)-Methode konzipiert, die Skelettmerkmale durch Rückwärtsdiffusion mit Textanweisungen anpasst und diese Anweisungen in den einheitlichen latenten Raum von Skelett und Text einbettet, um eine robuste Zuordnung zu erreichen. Um die diskriminierende Kraft zu verbessern, führen wir einen neuen Triplet-Diffusion-(TD)-Verlust ein, der unsere TDSM dazu anregt, korrekte Skelett-Text-Zuordnungen zu korrigieren und inkorrekte voneinander abzustoßen. Unsere TDSM übertrifft die neuesten Stand-of-the-Art-Methoden erheblich um Marginalien von 2,36%-Punkten bis 13,05%-Punkten und zeigt durch effektive Skelett-Text-Zuordnung überlegene Genauigkeit und Skalierbarkeit in Zero-Shot-Einstellungen.

TDSM: Triplet-Diffusion für die Skelett-Text-Zuordnung bei der zero-shot Aktionserkennung | Neueste Forschungsarbeiten | HyperAI