로봇 시각 및 다중 시점 상호작용: 보조 생활 환경에서의 행동 및 활동 인식
인간 중심 환경에서 로봇을 통합함에 있어 인간-로봇 상호작용(HRI)의 중요성은 점점 더 명확해지고 있다. 효과적인 HRI의 핵심 요소 중 하나는 인간 활동 인식(HAR)이며, 이는 특히 환경적 보조 생활(Ambient Assisted Living, AAL) 환경에서 로봇이 인간의 존재에 적절히 반응할 수 있도록 하는 데 핵심적인 역할을 한다. 일반적으로 로봇은 이동성이 높으며, 이동 중 발생하는 움직임과 노이즈로 인해 시각 인식 능력이 제한되는 경우가 많다. 본 논문에서는 다중 시점(Multi-view) 딥러닝 모델을 활용하여 로봇의 이동 시점과 정적 시점을 결합하는 방법을 평가한다. 로봇 응용 분야에서 시각 기반 HAR 정확도를 향상시키기 위해 이중 스트림(Convolutional 3D, C3D) 모델을 제안한다. 로봇 시점과 세 가지 정적 시점(Front, Back, Top)을 포함하는 Robot House Multiview(RHM) 데이터셋을 활용하여 제안된 모델의 효율성을 검증하고, 이중 스트림 ConvNet 및 Slow-Fast 모델과의 성능을 비교한다. 본 연구의 주요 목적은 이중 스트림 모델을 통해 로봇 시점과 정적 시점을 통합함으로써 로봇 시점의 인식 정확도를 향상시키는 것이다. 평가 지표로는 Top-1 및 Top-5 정확도를 사용한다. 실험 결과, 정적 시점과 로봇 시점을 결합함으로써 모든 평가 모델에서 Top-1 및 Top-5 정확도 모두에서 상당한 향상이 나타났다. 또한 제안된 이중 스트림 C3D 모델은 평가된 다른 현행 모델들에 비해 뛰어난 성능을 보였다.