HyperAIHyperAI

Command Palette

Search for a command to run...

Multi-Modality Co-Learning für effiziente, gelenkbasierende Aktenerkennung

Jinfu Liu Chen Chen Mengyuan Liu

Zusammenfassung

Die Aktionserkennung auf Basis von Skeletten hat aufgrund der Nutzung kompakter und robuster Skelettinformationen erhebliche Aufmerksamkeit erlangt. Dennoch beschränkt das Fehlen detaillierter Körperinformationen in Skeletten die Leistungsfähigkeit, während andere multimodale Ansätze erhebliche Ressourcen für die Inferenz erfordern und ineffizient sind, wenn multimodale Daten sowohl im Trainings- als auch im Inferenzstadium genutzt werden. Um dieses Problem anzugehen und die komplementären Merkmale mehrerer Modalitäten optimal auszunutzen, schlagen wir einen neuartigen Multi-Modality-Co-Learning (MMCL)-Framework vor, der multimodale große Sprachmodelle (LLMs) als Hilfsnetzwerke nutzt, um eine effiziente Aktionserkennung auf Basis von Skeletten zu ermöglichen. Während des Trainings erfolgt eine kooperative Lernprozess über mehrere Modi, während bei der Inferenz lediglich die kompakten Skelettinformationen verwendet werden, was die Effizienz gewährleistet. Unser MMCL-Frame­work besteht hauptsächlich aus zwei Modulen. Erstens extrahiert das Feature Alignment Module (FAM) reichhaltige RGB-Merkmale aus Videobildern und aligniert diese mit globalen Skelettmerkmalen mittels kontrastivem Lernen. Zweitens nutzt das Feature Refinement Module (FRM) RGB-Bilder mit zeitlicher Information sowie Textanweisungen, um auf Basis der starken Generalisierungsfähigkeit multimodaler LLMs anweisungsorientierte Merkmale zu generieren. Diese anweisungsorientierten Textmerkmale verbessern anschließend die Klassifikationswerte, wodurch die Robustheit und Generalisierungsfähigkeit des Modells ähnlich wie bei Soft-Labels erhöht wird. Umfassende Experimente an den Benchmarks NTU RGB+D, NTU RGB+D 120 und Northwestern-UCLA bestätigen konsistent die Wirksamkeit unseres MMCL-Frame­works, das die bestehenden Methoden der Skelett-basierten Aktionserkennung übertrifft. Zudem zeigen Experimente an den Datensätzen UTD-MHAD und SYSU-Action die hervorragende Generalisierungsfähigkeit unseres MMCL im Zero-Shot- und Domain-Adaptation-Szenario. Unser Quellcode ist öffentlich verfügbar unter: https://github.com/liujf69/MMCL-Action.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Multi-Modality Co-Learning für effiziente, gelenkbasierende Aktenerkennung | Paper | HyperAI