
본 논문은 기존의 스켈레톤 기반 행동 인식과 관련된 세 가지 제한 사항을 동시에 해결합니다: 스켈레톤 검출 및 추적 오류, 대상 행동의 다양성 부족, 그리고 개인별 및 프레임별 행동 인식 문제입니다. 본 연구에서는 포인트 클라우드 딥러닝 패러다임을 행동 인식에 도입하고, 통합 프레임워크와 새로운 딥 뉴럴 네트워크 구조인 '구조화된 키포인트 풀링(Structured Keypoint Pooling)'을 제안합니다. 제안된 방법은 데이터 구조(스켈레톤에 내재되어 있음)에 대한 사전 지식을 바탕으로 각 키포인트가 속한 인스턴스와 프레임을 고려하여 캐스케이드 방식으로 키포인트 특성을 희소하게 집계하여 입력 오류에 대해 강건성을 달성합니다. 이 방법은 제약이 적고 추적 과정이 필요하지 않은 아키텍처를 통해 인간 스켈레톤과 비인간 객체 윤곽으로 구성된 시계열 키포인트를 효율적으로 3D 포인트 클라우드로 처리할 수 있으며, 대상 행동의 다양성을 확장합니다.또한, 우리는 '구조화된 키포인트 풀링'에서 영감을 받은 '풀링-스위칭 트릭(Pooling-Switching Trick)'을 제안합니다. 이 트릭은 학습 단계와 추론 단계 사이에서 풀링 커널을 전환하여 비디오 수준의 행동 라벨만 사용하여 약한 감독 하에서 개인별 및 프레임별 행동을 감지할 수 있습니다. 이 트릭은 여러 비디오에서 추출한 포인트 클라우드를 혼합하는 새로운 데이터 증강 방식을 자연스럽게 도입할 수 있는 학습 방식을 가능하게 합니다. 실험에서는 제안된 방법이 이러한 제한 사항들에 대해 효과적인지를 종합적으로 검증하였으며, 해당 방법은 최신 스켈레톤 기반 행동 인식 및 시공간 행동 위치 결정 방법들을 능가하는 성능을 보였습니다.