Spatiotemporal Decouple-and-Squeeze Contrastive Learning for Semi-Supervised Skeleton-based Action Recognition 시공간 분리-압축 대조 학습을 이용한 준지도 스켈레톤 기반 행동 인식

대조 학습은 반감독된 스켈레톤 기반 행동 인식 문제를 해결하기 위해 행동 표현을 학습하는 데 성공적으로 활용되었습니다. 그러나 대부분의 대조 학습 기반 방법들은 시공간 정보가 혼합된 전역 특징만을 대조하여, 프레임 수준과 관절 수준에서 다른 의미를 반영하는 공간적 및 시간적 특화 정보를 혼동합니다. 따라서, 우리는 더 풍부한 스켈레톤 기반 행동 표현을 포괄적으로 학습하기 위해 공간-시간 분리 및 압축 대조 학습(Spatiotemporal Decouple-and-Squeeze Contrastive Learning, SDS-CL) 프레임워크를 제안합니다. 이 SDS-CL에서는 새로운 시공간 분리 내부-외부 주의 메커니즘(Spatiotemporal-decoupling Intra-Inter Attention, SIIA)을 설계하여, 관절/운동 특징 간의 시공간 분리 내부 주의 맵과 관절 및 운동 특징 사이의 시공간 분리 외부 주의 맵을 계산하여 시공간 특정 정보를 포착할 수 있는 시공간 분리 주의 특징을 얻습니다. 또한, 우리는 프레임 수준에서 공간 압축 관절 및 운동 특징을 대조하기 위한 새로운 공간 압축 시간 대조 손실(Spatial-squeezing Temporal-contrasting Loss, STL), 관절 수준에서 시간 압축 관절 및 운동 특징을 대조하기 위한 새로운 시간 압축 공간 대조 손실(Temporal-squeezing Spatial-contrasting Loss, TSL), 그리고 스켈레톤 수준에서 전역 관절 및 운동 특징을 대조하기 위한 전역 대조 손실(Global-contrasting Loss, GL)을 제시합니다. 네 개의 공개 데이터셋에 대한 광범위한 실험 결과는 제안된 SDS-CL이 다른 경쟁적인 방법들에 비해 성능 향상을 달성함을 보여줍니다.