Skeleton 기반 동작 인식을 위한 언어 지식 지원 표현 학습

타인의 행동을 이해하고 인식하는 방식은 인지적 메커니즘과 신경망의 복합적 상호작용을 포함하는 복잡한 신경과학적 문제이다. 연구에 따르면 인간은 상위 수준의 주의 정보를 처리하는 데 관여하는 뇌 영역을 보유하고 있으며, 예를 들어 후두엽-측두엽 연합 부위가 이에 해당한다. 또한 인간은 타인의 사고를 이해하고 의도를 분석하는 데 특화된 뇌 영역을 지니고 있는데, 이는 대개 두정엽의 내측 전두엽 회( medial prefrontal cortex)에 해당한다. 뼈대 기반 행동 인식은 인간 뼈대의 운동 패턴과 행동 간의 복잡한 관계를 매핑하는 기법이다. 기존 연구들은 의미 있는 노드 간 관계를 인코딩하고, 분류를 위해 행동 표현을 합성함으로써 우수한 성능을 달성했지만, 사전 지식을 활용하여 표현 학습을 보다 효과적으로 유도하는 접근은 거의 고려되지 않았다. LA-GCN은 대규모 언어 모델(Large-scale Language Models, LLM)의 지식을 활용한 그래프 컨볼루션 네트워크를 제안한다. 먼저 LLM의 지식은 노드 간의 사전 전역 관계(Global Prior Relationship, GPR) 및 사전 카테고리 관계(Category Prior Relationship, CPR) 구조로 변환된다. GPR은 새로운 ‘골절’ 표현 생성을 안내하며, 데이터 수준에서 핵심 노드 정보를 강조하는 것을 목표로 한다. CPR은 인간 뇌 영역에서 인식되는 카테고리 사전 지식을 모방하며, PC-AC 모듈을 통해 인코딩되어 추가적인 감독 신호로 활용되며, 모델이 클래스 구분 가능한 특징을 학습하도록 유도한다. 또한, 구조 모델링에서 정보 전달 효율성을 향상시키기 위해 다단계 주의 기반 그래프 컨볼루션을 제안한다. 이 방법은 각 노드의 k차 이웃 정보를 동시에 집계함으로써 모델 수렴 속도를 가속화한다. LA-GCN은 NTU RGB+D, NTU RGB+D 120, NW-UCLA 데이터셋에서 최신 기술(SOTA) 수준의 성능을 달성하였다.