HyperAIHyperAI
vor 2 Monaten

Autonome Klassifikation menschlicher Aktivitäten aus Ego-Vision-Kamera- und Beschleunigungsdaten

Lu, Yantao ; Velipasalar, Senem
Autonome Klassifikation menschlicher Aktivitäten aus Ego-Vision-Kamera- und Beschleunigungsdaten
Abstract

Es wurden erhebliche Forschungsarbeiten zur Klassifizierung menschlicher Aktivitäten durchgeführt, die entweder auf Daten von Trägheitsmessungssensoren (Inertial Measurement Unit, IMU) oder auf Daten von statischen Kameras basieren, die eine dritte-Person-Sicht bieten. Die Verwendung ausschließlich von IMU-Daten begrenzt die Vielfalt und Komplexität der erkennbaren Aktivitäten. Zum Beispiel kann die Sitzaktivität durch IMU-Daten erkannt werden, aber es ist nicht möglich zu bestimmen, ob das Subjekt auf einem Stuhl oder einer Couch sitzt, oder wo sich das Subjekt befindet. Um feingranulare Aktivitätsklassifizierung aus egozentrischen Videos durchzuführen und zwischen Aktivitäten zu unterscheiden, die allein durch IMU-Daten nicht differenziert werden können, präsentieren wir eine autonome und robuste Methode, die sowohl Daten von Egovision-Kameras als auch von IMUs verwendet. Im Gegensatz zu Ansätzen basierend auf konvolutionellen Neuronalen Netzen schlagen wir vor, Kapselnetze (Capsule Networks) zu verwenden, um Merkmale aus egozentrischen Videodaten zu extrahieren. Darüber hinaus wird ein konvolutionsbasierter Long Short-Term Memory (LSTM)-Framework sowohl auf egozentrischen Videos als auch auf IMU-Daten angewendet, um den zeitlichen Aspekt der Aktionen zu erfassen. Wir schlagen zudem einen genetischen Algorithmus-basierten Ansatz vor, um verschiedene Netzwerkparameter autonom und systematisch zu setzen, anstatt manuelle Einstellungen zu verwenden. Experimente wurden durchgeführt, um eine 9- und 26-Label-Aktivitätsklassifizierung durchzuführen. Die vorgeschlagene Methode mit autonom gesetzten Netzwerkparametern hat sehr vielversprechende Ergebnisse geliefert und erreichte insgesamt Genauigkeiten von 86,6 % und 77,2 % respektive. Der vorgeschlagene Ansatz, der beide Modalitäten kombiniert, bietet auch eine höhere Genauigkeit im Vergleich zur Verwendung nur von Egovision-Daten und nur von IMU-Daten.