HAMLET: Ein hierarchischer multimodaler Aufmerksamkeits-basierter Algorithmus zur menschlichen Aktivitätserkennung

Um nahtlos mit Menschen zusammenzuarbeiten, müssen Roboter die Fähigkeit besitzen, menschliche Aktivitäten präzise zu erkennen. Obwohl moderne Roboter mit einer Vielzahl von Sensoren ausgestattet sind, bleibt die zuverlässige Erkennung menschlicher Aktivitäten (Human Activity Recognition, HAR) aufgrund der Herausforderungen bei der Fusion multimodaler Daten weiterhin eine anspruchsvolle Aufgabe. Um diese Probleme anzugehen, stellen wir in diesem Werk einen tiefen neuronalen Netzwerk-basierten multimodalen HAR-Algorithmus namens HAMLET vor. HAMLET integriert eine hierarchische Architektur, wobei die untere Schicht spatio-temporale Merkmale aus unimodalen Daten mittels eines Multi-Head-Self-Attention-Mechanismus extrahiert. Wir entwickeln einen neuartigen multimodalen Aufmerksamkeitsmechanismus, um die charakteristischen Merkmale der einzelnen Modalitäten zu entkoppeln und zu fusionieren, um so multimodale Merkmale in der oberen Schicht zu berechnen. Schließlich werden die multimodalen Merkmale in einem vollständig verbundenen neuronalen Netzwerk zur Erkennung menschlicher Aktivitäten verwendet. Wir haben unseren Algorithmus evaluiert, indem wir seine Leistung mit mehreren state-of-the-art-Verfahren zur Aktivitätsrekognition an drei öffentlichen Datensätzen für menschliche Aktivitäten verglichen. Die Ergebnisse zeigen, dass HAMLET alle anderen verglichenen Baselines in allen Datensätzen und Bewertungsmetriken übertrifft, wobei er eine höchste Top-1-Accuracy von 95,12 % auf dem UTD-MHAD-Datensatz [1] und 97,45 % auf dem UT-Kinect-Datensatz [2] erzielt, sowie einen F1-Score von 81,52 % auf dem UCSD-MIT-Datensatz [3]. Zudem visualisieren wir die Aufmerksamkeitskarten der einzelnen Modalitäten sowie die multimodalen Aufmerksamkeitskarten, die uns ein Werkzeug zur Interpretation des Einflusses der Aufmerksamkeitsmechanismen auf die HAR liefern.