
스켈레톤 기반 동작 인식은 간결하고 강건한 스켈레톤 정보를 활용함으로써 큰 주목을 받고 있다. 그러나 스켈레톤 내부의 세부 신체 정보가 부족하여 성능에 제한을 받는다는 문제가 있으며, 다른 다중 모달 방법들은 학습 및 추론 단계에서 다중 모달 데이터를 사용할 때 상당한 추론 자원을 요구하여 효율성이 떨어진다. 이러한 문제를 해결하고 다중 모달 특징의 보완적 장점을 극대화하기 위해, 본 연구에서는 다중 모달 대규모 언어 모델(Multimodal Large Language Models, LLMs)을 보조 네트워크로 활용하여 효율적인 스켈레톤 기반 동작 인식을 위한 새로운 다중 모달 공학 학습(Multi-modality Co-learning, MMCL) 프레임워크를 제안한다. 제안한 MMCL 프레임워크는 학습 단계에서 다중 모달 공학 학습을 수행하며, 추론 단계에서는 간결한 스켈레톤 정보만을 사용함으로써 높은 효율성을 유지한다. 본 프레임워크는 주로 두 가지 모듈로 구성된다. 첫 번째로, 특징 정렬 모듈(Feature Alignment Module, FAM)은 영상 프레임에서 풍부한 RGB 특징을 추출하고, 대조 학습(contrastive learning)을 통해 이를 전역적 스켈레톤 특징과 정렬한다. 두 번째로, 특징 정제 모듈(Feature Refinement Module, FRM)은 시간 정보를 포함한 RGB 이미지와 텍스트 지시문(text instruction)을 활용하여, 다중 모달 LLM의 뛰어난 일반화 능력을 기반으로 유도적 특징(instructive features)을 생성한다. 이러한 유도적 텍스트 특징은 분류 점수를 정제하고, 정제된 점수는 소프트 레이블과 유사한 방식으로 모델의 강건성과 일반화 능력을 향상시킨다. NTU RGB+D, NTU RGB+D 120, Northwestern-UCLA 기준 데이터셋에서 실시한 광범위한 실험을 통해 MMCL의 효과가 지속적으로 입증되었으며, 기존 스켈레톤 기반 동작 인식 방법들을 모두 상회하는 성능을 보였다. 또한, UTD-MHAD 및 SYSU-Action 데이터셋에서의 실험을 통해 MMCL이 제로샷(Zero-shot) 및 도메인 적응적(Domain-adaptive) 동작 인식에서 뛰어난 일반화 능력을 보여주었다. 본 연구의 코드는 공개되어 있으며, 다음 링크에서 확인할 수 있다: https://github.com/liujf69/MMCL-Action.