18일 전
내부 행동 인식을 위한 교사-학생 네트워크를 통한 다중 모달 융합
{Keith C.C. Chan, Yan Liu, Bruce X.B. Yu}
초록
실내 행동 인식은 대형 이동식 간병 병원에서의 지능형 헬스케어와 같은 현대 사회에서 중요한 역할을 한다. 키넥트와 같은 깊이 센서의 광범위한 사용으로 인해 스켈레톤 모달리티와 RGB 모달리티를 포함한 다중 모달 정보가 성능 향상에 유망한 길을 제시하고 있다. 그러나 기존의 방법들은 단일 데이터 모달리티에 집중하거나, 다중 모달리티의 장점을 충분히 활용하지 못하고 있다. 본 논문에서는 실내 행동 인식을 위해 모델 수준에서 스켈레톤과 RGB 모달리티를 융합하는 테이처-스터디 멀티모달 융합(Teacher-Student Multimodal Fusion, TSMF) 모델을 제안한다. 본 TSMF 모델에서는 테이처 네트워크를 활용하여 스켈레톤 모달리티의 구조적 지식을 RGB 모달리티를 위한 스타디 네트워크로 전이한다. NTU RGB+D와 PKU-MMD 두 가지 벤치마크 데이터셋에서 실시한 광범위한 실험 결과, 제안하는 TSMF는 최신의 단일 모달 및 다중 모달 방법보다 일관되게 우수한 성능을 보였다. 또한 TSMF가 스타디 네트워크의 정확도를 향상시킬 뿐만 아니라 앙상블 정확도도 상당히 향상시킬 수 있음을 시사한다.