다중 규모 문맥 인식 네트워크와 트랜스포머를 활용한 보행 인식

최근 보행 인식에 대한 연구 관심이 증가하고 있지만, 공간 영역에서 실루엣의 차이가 매우 미세하기 때문에 시간적 특성 표현은 보행 인식에 있어 중요한 역할을 합니다. 인간이 서로 다른 주제들의 보행을 적응적으로 다양한 시간 스케일의 클립에 초점을 맞추어 구분할 수 있다는 관찰에서 영감을 얻어, 우리는 보행 인식을 위한 트랜스포머를 활용한 다중 스케일 컨텍스트 인식 네트워크(MCAT)를 제안합니다. MCAT는 세 가지 스케일에서 시간적 특성을 생성하고, 로컬 및 글로벌 관점에서 얻은 컨텍스트 정보를 사용하여 이를 적응적으로 집계합니다.특히, MCAT는 로컬 관계 모델링을 수행한 후 글로벌 관계 모델링을 통해 다중 스케일 특성을 융합하는 적응적 시간 집계(Adaptive Temporal Aggregation, ATA) 모듈을 포함하고 있습니다. 또한, 시간 연산으로 인해 발생하는 공간 특성의 오염을 보완하기 위해 MCAT는 차별적인 공간 특성을 선택하는 뚜렷한 공간 특성 학습(Salient Spatial Feature Learning, SSFL) 모듈을 통합합니다. 세 개의 데이터셋에서 수행된 광범위한 실험 결과, MCAT는 최신 기술 수준의 성능을 입증하였습니다. 구체적으로, CASIA-B 데이터셋에서는 정상 걷기, 가방 들기, 코트 입기 조건 하에서 각각 98.7%, 96.2%, 88.7%의 1위 정확도를 달성하였으며, OU-MVLP 데이터셋에서는 97.5%, GREW 데이터셋에서는 50.6%의 1위 정확도를 기록하였습니다. 소스 코드는 https://github.com/zhuduowang/MCAT.git 에서 제공될 예정입니다.