HyperAIHyperAI
vor 16 Tagen

Sprachwissensbasierte Repräsentationslernmethoden für die aktionsbasierte Aktionserkennung auf der Grundlage von Skelettdaten

Haojun Xu, Yan Gao, Zheng Hui, Jie Li, Xinbo Gao
Sprachwissensbasierte Repräsentationslernmethoden für die aktionsbasierte Aktionserkennung auf der Grundlage von Skelettdaten
Abstract

Wie Menschen die Handlungen anderer verstehen und erkennen, stellt ein komplexes neurowissenschaftliches Problem dar, das eine Kombination kognitiver Mechanismen und neuronaler Netzwerke erfordert. Untersuchungen haben gezeigt, dass der menschliche Gehirn Bereiche besitzt, die Handlungen verarbeiten und top-down Aufmerksamkeitsinformationen verarbeiten, wie beispielsweise das temporoparietale Assoziationsgebiet. Zudem verfügt der Mensch über Gehirnregionen, die speziell der Verständniskapazität für die Geister anderer und der Analyse ihrer Absichten dienen, wie beispielsweise der mediale präfrontale Kortex der Temporallappen. Die aktionsbasierte Erkennung auf der Grundlage von Skelettdaten erstellt Abbildungen für die komplexen Verbindungen zwischen menschlichen Skelettbewegungsmustern und Verhaltensweisen. Obwohl bestehende Studien sinnvolle Knotenbeziehungen kodiert und zur Klassifikation handlungsrepräsentative Modelle synthetisiert haben, die gute Ergebnisse erzielten, wurde bisher nur selten a priori-Wissen berücksichtigt, um die mögliche Repräsentationslernleistung zu verbessern. LA-GCN schlägt ein Graph-Convolution-Netzwerk vor, das die Unterstützung großer Sprachmodelle (LLM) nutzt. Zunächst wird das Wissen aus LLMs in eine a priori-Global-Beziehungstopologie (GPR) und eine a priori-Kategorien-Beziehungstopologie (CPR) zwischen Knoten abgebildet. Die GPR leitet die Generierung neuer „Knochen“-Repräsentationen an und zielt darauf ab, wesentliche Knoteninformationen auf Datenebene hervorzuheben. Die CPR-Abbildung simuliert kategorische a priori-Wissen aus menschlichen Gehirnregionen, das mittels des PC-AC-Moduls kodiert wird und als zusätzliche Aufsicht verwendet wird, um das Modell dazu zu zwingen, klassendifferenzierbare Merkmale zu lernen. Zusätzlich wird zur Verbesserung der Informationsübertragungseffizienz bei der Topologie-Modellierung ein Multi-Hop-Attention-Graph-Convolution vorgeschlagen. Dieser aggregiert gleichzeitig die k-ten Nachbarn jedes Knotens, um die Konvergenzgeschwindigkeit des Modells zu erhöhen. LA-GCN erreicht Spitzenleistungen auf den Datensätzen NTU RGB+D, NTU RGB+D 120 und NW-UCLA.

Sprachwissensbasierte Repräsentationslernmethoden für die aktionsbasierte Aktionserkennung auf der Grundlage von Skelettdaten | Neueste Forschungsarbeiten | HyperAI