HyperAIHyperAI
vor 18 Tagen

MuMu: Kooperatives mehraufgabenbasiertes Lernen zur geführten multimodalen Fusion

{Tariq Iqbal, Md Mofijul Islam}
Abstract

Multimodale Sensoren (visuell, nicht-visuell und tragbare) können ergänzende Informationen liefern, um robuste Wahrnehmungssysteme zur präzisen Aktivitätserkennung zu entwickeln. Es ist jedoch herausfordernd, robuste multimodale Darstellungen zu extrahieren, da die Daten aus multimodalen Sensoren heterogene Eigenschaften aufweisen und menschliche Aktivitäten unterschiedlich sind, besonders bei Vorliegen von verrauschten und nicht synchronisierten Sensordaten. In dieser Arbeit stellen wir einen kooperativen Multitask-Lernansatz mit geführter multimodaler Fusion, MuMu, vor, um robuste multimodale Darstellungen für die menschliche Aktivitätserkennung (HAR) zu extrahieren. MuMu nutzt einen Ansatz des Hilfsaufgabenerlernens, um Merkmale zu extrahieren, die jeweils spezifisch für Gruppen von Aktivitäten mit gemeinsamen Charakteristika (Aktivitätsgruppen) sind. Anschließend verwendet MuMu diese aktivitätsgruppen-spezifischen Merkmale, um unseren vorgeschlagenen geführten multimodalen Fusionansatz (GM-Fusion) zu steuern, der als Zielaufgabe zur Extraktion komplementärer multimodaler Darstellungen konzipiert ist. Wir haben MuMu evaluiert, indem wir seine Leistung mit aktuellen state-of-the-art-Ansätzen für multimodale HAR auf drei Aktivitätsdatensätzen verglichen. Unsere umfangreichen experimentellen Ergebnisse deuten darauf hin, dass MuMu alle verglichenen Ansätze auf allen drei Datensätzen übertrifft. Zudem zeigt die Ablationsstudie, dass MuMu signifikant besser abschneidet als die Basismodelle (p < 0,05), die unseren geführten multimodalen Fusionansatz nicht nutzen. Schließlich belegt die Robustheit von MuMu bei verrauschten und unsynchronisierten Sensordaten, dass unser Ansatz für die HAR in realen Anwendungsszenarien gut geeignet ist.