
초록
비디오 트랜스포머는 인간 행동 인식의 사실상의 표준이 되었지만, RGB 모달리티에 대한 독점적 의존성은 여전히 특정 영역에서의 채택을 제한하고 있습니다. 이러한 영역 중 하나가 일상 활동(Activities of Daily Living, ADL)입니다. 여기서 RGB만으로는 시각적으로 유사한 행동이나 여러 시점에서 관찰된 행동을 구분하기에 충분하지 않습니다. 비디오 트랜스포머를 ADL에 적용하기 위해, 우리는 미세 운동과 다중 시점을 감지하는 데 있어 알려진 사람 자세 정보를 RGB와 결합하는 것이 필수적이라고 가정합니다. 이에 따라, 우리는 최초의 자세 유도 비디오 트랜스포머인 PI-ViT (또는 $\pi$-ViT)를 소개합니다. 이는 비디오 트랜스포머가 학습한 RGB 표현에 2D 및 3D 자세 정보를 추가하는 새로운 접근 방식입니다.$\pi$-ViT의 핵심 요소는 2D 스켈레톤 유도 모듈과 3D 스켈레톤 유도 모듈이라는 두 개의 플러그인 모듈입니다. 이 모듈들은 RGB 표현에 2D 및 3D 자세 정보를 유도하는 역할을 합니다. 이 모듈들은 자세 인식 보조 작업을 수행하여 작동하며, 이러한 설계 선택은 추론 과정에서 $\pi$-ViT가 모듈들을 버릴 수 있게 해줍니다. 특히, $\pi$-ViT는 실제 환경과 대규모 RGB-D 데이터셋 모두를 포함하는 세 가지 주요 ADL 데이터셋에서 최고 수준의 성능을 달성하였으며, 추론 시 자세 정보나 추가적인 계산 부하를 요구하지 않습니다.