다양한 가림 상황을 고려한 원샷 스켈레톤 기반 동작 인식에 대한 심층 탐구

장애는 현실 세계에서 지속적으로 존재하는 보편적인 간섭 요소이다. 특히 인간의 골격과 같은 희소 표현에서는 몇몇 점이 가려지는 경우에도 기하학적 및 시간적 연속성이 심각하게 손상되어 결과에 큰 영향을 미칠 수 있다. 그러나 인간 골격 시퀀스로부터 데이터가 부족한 인식, 예를 들어 일회성 동작 인식(one-shot action recognition)과 같은 연구에서는 이러한 장애가 일상적으로 발생함에도 불구하고 명시적으로 고려되지 않고 있다. 본 연구에서는 골격 기반 일회성 동작 인식(Skeleton-based One-shot Action Recognition, SOAR)에 대해 신체 장애를 명시적으로 다룬다. 우리는 주로 두 가지 유형의 장애를 고려한다: 1) 무작위 장애와 2) 다양한 일상 물체에 의해 발생하는 보다 현실적인 장애이다. 후자는 기존의 IKEA 3D 가구 모델을 3D 골격의 카메라 좌표계에 다양한 기하학적 파라미터로 투영함으로써 생성한다. 제안된 파이프라인을 활용해 세 가지 주요 동작 인식 데이터셋의 골격 시퀀스 일부를 자연스럽게 혼합하여, 부분적으로 장애가 발생한 신체 자세에서의 SOAR를 위한 최초의 벤치마크를 체계화하였다. 본 벤치마크의 또 다른 핵심 특성은 일상 물체에 의해 생성된 보다 현실적인 장애이다. 기존의 3D 골격 기반 표준 인식 연구에서는 오직 무작위로 누락된 관절만을 고려한 반면, 본 연구는 실제 상황에 더 가까운 장애 조건을 도입하였다. 이 새로운 작업 환경을 바탕으로 기존의 최첨단 SOAR 프레임워크들을 재평가하였으며, 장애로 인한 부정적 영향을 완화하기 위해 세 가지 데이터 스트림과 혼합 주의(attention) 융합 메커니즘을 활용하는 새로운 트랜스포머 기반 모델인 Trans4SOAR를 제안한다. 실험 결과, 골격 일부가 누락될수록 정확도가 감소하는 경향이 명확히 나타났지만, Trans4SOAR는 이러한 영향을 상대적으로 적게 받으며, 모든 데이터셋에서 다른 아키텍처보다 우수한 성능을 보였다. 본 연구는 장애에 특화된 문제를 다루었지만, 장애가 없는 표준 SOAR 환경에서도 Trans4SOAR는 최고 성능을 기록하였으며, NTU-120 데이터셋에서 기존 최고 성능 기술보다 2.85% 높은 성능을 달성하였다.