Multi-GAT: Ein hierarchischer multimodaler Darstellungslearnansatz auf Basis graphischer Aufmerksamkeit für die Aktivitätserkennung beim Menschen
Die Erkennung menschlicher Aktivitäten ist eine entscheidende Fähigkeit, die ein Roboter besitzen muss, um in menschlicher Umgebung nützlich zu sein. Obwohl moderne Roboter mit verschiedenen Sensorarten ausgestattet sind, bleibt die Erkennung menschlicher Aktivitäten (Human Activity Recognition, HAR) weiterhin eine herausfordernde Aufgabe, insbesondere bei Vorliegen von störenden Sensor-Daten. In dieser Arbeit stellen wir einen multimodalen, grafikbasierten Aufmerksamkeitsansatz zur HAR vor, genannt Multi-GAT, der hierarchisch ergänzende multimodale Merkmale lernt. Wir entwickeln ein multimodales Mixture-of-Experts-Modell, um modality-spezifische, herausragende Merkmale zu entkoppeln und zu extrahieren, wodurch Merkmalsinteraktionen ermöglicht werden. Zudem führen wir einen neuartigen, auf Nachrichtenübertragung basierenden grafischen Aufmerksamkeitsansatz ein, um Kreuzmodale Beziehungen zu erfassen und ergänzende multimodale Merkmale zu extrahieren. Die experimentellen Ergebnisse auf zwei multimodalen Datensätzen zur menschlichen Aktivitätserkennung zeigen, dass Multi-GAT alle getesteten State-of-the-Art-Algorithmen in Bezug auf alle verwendeten Datensätze und Metriken übertrifft. Schließlich belegen die Experimente mit gestörten Sensor-Daten, dass Multi-GAT konsistent alle verglichenen Baselines übertrifft. Die robuste Leistung unterstreicht, dass Multi-GAT eine nahtlose menschliche Roboter-Kooperation auch in störanfälligen Umgebungen ermöglichen kann.