HyperAIHyperAI

Command Palette

Search for a command to run...

Multimodale Fusion mittels Lehrer-Schüler-Netzwerk für die Anerkennung von Innenraumaktionen

Keith C.C. Chan Yan Liu Bruce X.B. Yu

Zusammenfassung

Die Erkennung von Innenraumaktionen spielt eine wichtige Rolle in der modernen Gesellschaft, beispielsweise im Bereich intelligenter Gesundheitsversorgung in großen mobilen Klinikcontainern. Mit der zunehmenden Verbreitung von Tiefensensoren wie Kinect bietet die Kombination multimodaler Informationen – insbesondere von Skelett- und RGB-Daten – eine vielversprechende Möglichkeit, die Leistungsfähigkeit zu steigern. Allerdings konzentrieren sich bestehende Methoden entweder auf eine einzelne Datensmodality oder nutzen die Vorteile mehrerer Modalitäten nicht ausreichend. In diesem Artikel stellen wir ein Teacher-Student Multimodal Fusion (TSMF)-Modell vor, das die Skelett- und RGB-Modalitäten auf Modell-Ebene für die Erkennung von Innenraumaktionen fusioniert. In unserem TSMF nutzt ein Lehrernetzwerk, um strukturelles Wissen aus der Skelettmodality auf ein Schüler-Netzwerk für die RGB-Modality zu übertragen. Ausführliche Experimente an zwei Standard-Datensätzen – NTU RGB+D und PKU-MMD – zeigen, dass das vorgeschlagene TSMF konsistent besser abschneidet als aktuelle state-of-the-art-Methoden, sowohl bei Einzelmodalitäten als auch bei multimodalen Ansätzen. Zudem belegt dies, dass unser TSMF nicht nur die Genauigkeit des Schüler-Netzwerks verbessert, sondern auch die Genauigkeit von Ensembles erheblich steigert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp