다중 스트림 운동 모델링과 상호 정보 최대화를 통한 액션 인식

행동 인식은 인공지능 분야에서 오랜 기간 기본적이면서도 매력적인 문제로 여겨져 왔다. 이 작업은 행동의 고차원적 특성과 미세한 운동 세부 정보를 고려해야 한다는 점에서 도전적이다. 현재 최첨단 접근 방식들은 보통 3차원 유클리드 공간에서 관절 운동 시퀀스를 직접적으로 학습한다. 그러나 단순한 유클리드 공간은 행동의 원동력인 관절별 각 가속도와 같은 중요한 운동 특성을 효과적으로 모델링하는 데 한계가 있다. 또한 기존 방법들은 각 채널에 동일한 주의를 기울이며, 입력에서 작업에 관련된 특징을 추출하는 데 이론적 제약이 부족하다.본 논문에서는 다음과 같은 세 가지 측면에서 이러한 문제를 해결하고자 한다. (1) 우리는 운동의 고차원 변화를 명시적으로 모델링하기 위해 가속도 표현을 도입한다. (2) 다중 스트림 구성 요소와 채널 주의 메커니즘을 갖춘 새로운 Stream-GCN 네트워크를 제안한다. 여기서 서로 다른 표현(즉, 스트림)은 상호 보완적으로 작용하여 보다 정밀한 행동 인식을 가능하게 하며, 주의 메커니즘은 중요한 채널에 집중함으로써 효율적인 특징 추출을 실현한다. (3) 작업에 관련된 정보를 최대한 추출하기 위해 특징 수준의 감독을 탐구하고, 이를 상호정보량 손실(mutual information loss) 형태로 수학적으로 정식화한다. 실험적으로 제안한 방법은 NTU RGB+D, NTU RGB+D 120, NW-UCLA 세 가지 벤치마크 데이터셋에서 새로운 최고 성능을 달성하였다. 코드는 https://github.com/ActionR-Group/Stream-GCN 에 익명으로 공개되었으며, 연구 공동체의 발전을 촉진하기를 기대한다.