GLA-GCN: 단일 영상에서 3차원 인간 자세 추정을 위한 글로벌-로컬 적응형 그래프 컨볼루션 네트워크

3D 인간 자세 추정은 수십 년에 걸쳐 연구되어 왔으며, 희망적인 성과를 거두어 왔다. 3D 인간 자세 리프팅( pose lifting)은 추정된 자세와 정답 자세 데이터를 모두 활용하여 학습하는 연구 방향으로, 이 분야에서 주목받는 접근법 중 하나이다. 기존의 자세 리프팅 연구는 주로 추정된 자세의 성능 향상에 초점을 맞추고 있으나, 정답 자세 데이터를 사용하여 테스트할 경우 일반적으로 성능이 저하되는 경향이 있다. 본 연구에서는 추정된 자세의 성능을 쉽게 향상시킬 수 있음을 관찰하였으며, 이는 고품질의 2D 자세 데이터를 준비함으로써 가능하다는 점이다. 예를 들어, 2D 자세 추정 모델의 미세 조정이나 고성능 2D 자세 검출기의 활용이 그 예이다. 이러한 관찰을 바탕으로, 본 연구는 향후 더 고품질의 추정된 자세 데이터를 얻기 위한 목표를 달성하기 위해 정답 2D 자세 데이터를 활용한 3D 인간 자세 리프팅 개선에 집중한다. 이를 위해, 간단하면서도 효과적인 모델인 글로벌-로컬 적응형 그래프 컨볼루션 네트워크(Global-local Adaptive Graph Convolutional Network, GLA-GCN)를 제안한다. 본 모델은 그래프 표현을 통해 시공간 구조를 전역적으로 모델링하고, 개별적으로 연결된 레이어를 통해 국소적인 관절 특징을 역추적함으로써 3D 자세 추정을 수행한다. 모델 설계의 타당성을 검증하기 위해, Human3.6M, HumanEva-I, MPI-INF-3DHP 세 가지 표준 벤치마크 데이터셋에서 광범위한 실험을 수행하였다. 실험 결과, 정답 2D 자세를 사용한 본 GLA-GCN 모델이 기존 최첨단 방법들보다 뛰어난 성능을 보였다. 구체적으로, Human3.6M, HumanEva-I, MPI-INF-3DHP에서 각각 약 3%, 17%, 14%의 오차 감소를 달성하였다. GitHub: https://github.com/bruceyo/GLA-GCN