Virtuelle Fusion mit kontrastivem Lernen für die Aktivitätserkennung basierend auf Einzelsensoren

Verschiedene Arten von Sensoren können für die Erkennung menschlicher Aktivitäten (Human Activity Recognition, HAR) eingesetzt werden, wobei jeder Sensor unterschiedliche Stärken und Schwächen aufweist. Oft kann ein einzelner Sensor die Bewegungen des Benutzers aus seiner Perspektive nicht vollständig erfassen, was zu fehlerhaften Vorhersagen führt. Obwohl die Sensorfusion mehr Informationen für HAR bereitstellt, birgt sie zahlreiche inhärente Nachteile wie Datenschutzbedenken und geringe Akzeptanz durch den Nutzer, hohe Aufbau-, Betriebs- und Wartungskosten. Um dieses Problem anzugehen, schlagen wir Virtual Fusion vor – eine neue Methode, die unlabeled Daten aus mehreren zeitlich synchronisierten Sensoren während des Trainings nutzt, jedoch für die Inferenz lediglich einen einzigen Sensor erfordert. Zur Ausnutzung der Korrelationen zwischen den Sensoren wird kontrastives Lernen eingesetzt. Virtual Fusion erreicht eine deutlich höhere Genauigkeit als das Training mit einem einzigen Sensor und übertroffen in einigen Fällen sogar die tatsächliche Fusion mehrerer Sensoren zur Testzeit. Wir erweitern die Methode zudem auf eine allgemeinere Variante namens Actual Fusion within Virtual Fusion (AFVF), die während der Inferenz eine Teilmenge der Trainings-Sensoren nutzt. Unser Ansatz erzielt state-of-the-art Ergebnisse hinsichtlich Genauigkeit und F1-Score auf den Benchmark-Datensätzen UCI-HAR und PAMAP2. Die Implementierung ist auf Anfrage verfügbar.