인간 분할과 자세 네트워크의 통합을 통한 인간 동작 인식

인간의 골격과 RGB 시퀀스는 모두 인간 행동 인식에서 널리 사용되는 입력 모달리티이다. 그러나 골격 데이터는 시각적 특징과 색상 정보를 포함하지 않으며, RGB 데이터는 옷차림, 배경 등과 같은 관련 없는 정보를 포함하여 과도한 노이즈를 유발한다. 이를 해결하기 위해 본 연구에서는 인간의 파싱 특징 맵을 새로운 모달리티로 제안한다. 이는 신체 부위의 시공간적 특징을 선택적으로 유지하면서 옷차림, 배경 등의 노이즈를 필터링할 수 있다는 장점을 지닌다. 우리는 골격과 인간 파싱 특징 맵을 이중 분기 구조로 동시에 활용하는 최초의 행동 인식 모델인 통합 인간 파싱 및 포즈 네트워크(IPP-Net)를 제안한다. 포즈 분기에서는 그래프 컨볼루션 네트워크(GCN)를 사용하여 다양한 모달리티의 컴팩트한 골격 표현을 입력하여 포즈 특징을 모델링한다. 파싱 분기에서는 인간 검출기와 파서를 활용해 다중 프레임에 걸친 신체 부위별 파싱 특징을 추출한 후, 컨볼루션 기반 백본을 통해 특징을 학습한다. 두 분기의 최종 예측은 후기 앙상블(early ensemble) 방식을 통해 결합되며, 강건한 키포인트 정보와 풍부한 의미론적 신체 부위 특징을 동시에 고려한다. NTU RGB+D 및 NTU RGB+D 120 벤치마크에서 실시한 광범위한 실험을 통해 제안된 IPP-Net의 효과성이 일관되게 검증되었으며, 기존의 행동 인식 방법들을 상회하는 성능을 보였다. 본 연구의 코드는 공개되어 있으며, https://github.com/liujf69/IPP-Net-Parsing 에서 확인할 수 있다.