
인체 활동 분류를 위해 관성 측정 장치(IMU) 데이터나 제3자 시점의 정적 카메라 데이터에 의존하는 많은 연구가 수행되었습니다. 그러나 IMU 데이터만을 사용하면 감지할 수 있는 활동의 다양성과 복잡성이 제한됩니다. 예를 들어, 앉아있는 활동은 IMU 데이터로 감지할 수 있지만, 피실험자가 의자에 앉았는지 소파에 앉았는지, 또는 어디에 있는지는 판단할 수 없습니다. 이에 우리는 제1자 시점 비디오와 IMU 데이터 모두를 활용하여 미세한 활동 분류를 수행하고, IMU 데이터만으로 구분할 수 없는 활동들을 차별화하기 위한 자율적이고 강건한 방법을 제시합니다. 합성곱 신경망(CNN) 기반 접근법과 달리, 우리는 캡슐 네트워크를 사용하여 제1자 시점 비디오 데이터에서 특징을 추출하는 방안을 제안합니다. 또한, 합성곱 장기 단기 메모리(C-LSTM) 프레임워크는 제1자 시점 비디오와 IMU 데이터 모두에서 시간적인 행동 양상을 포착하기 위해 적용됩니다. 더불어, 다양한 네트워크 매개변수를 자율적이고 체계적으로 설정하기 위해 유전 알고리즘 기반 접근법을 제안하며, 이는 수작업 설정 대신 사용됩니다. 9개 라벨 및 26개 라벨의 활동 분류 실험을 수행한 결과, 자율적으로 설정된 네트워크 매개변수를 사용한 제안 방법이 매우 유망한 결과를 제공하였으며, 각각 전체 정확도 86.6%와 77.2%를 달성하였습니다. 또한, 두 모달성을 결합한 제안 접근법은 제1자 시점 비디오 데이터만 또는 IMU 데이터만을 사용하는 것보다 정확도가 향상되는 것으로 나타났습니다.