다양체 계층적 그래프 그룹화를 통한 다인원 포즈 추정

다수 인물의 자세 추정은 여러 사람의 신체 키포인트를 동시에 위치화해야 하기 때문에 도전적인 과제이다. 기존의 방법들은 일반적으로 두 가지 방향, 즉 상향식(top-down)과 하향식(bottom-up)으로 나뉜다. 상향식 방법은 먼저 사람을 탐지한 후 키포인트를 위치화하지만, 하향식 방법은 키포인트를 직접 탐지한 후 이를 서로 다른 사람에게 그룹화하는 방식을 취한다. 하향식 방법은 일반적으로 상향식 방법보다 더 효율적인 편이다. 그러나 기존의 하향식 방법에서는 키포인트 그룹화 과정이 키포인트 탐지 과정과 독립적으로 처리되기 때문에, 종단 간(end-to-end) 학습이 불가능하고 최적의 성능을 달성하기 어렵다는 한계가 있다. 본 논문에서는 인간 부분 그룹화에 대한 새로운 관점을 탐구하고 이를 그래프 군집화(graph clustering) 문제로 재정의한다. 특히, 하향식 다수 인물 자세 추정 작업에서 그래프 그룹화를 학습할 수 있는 새로운 미분 가능한 계층적 그래프 그룹화(Hierarchical Graph Grouping, HGG) 방법을 제안한다. 또한 HGG는 주류 하향식 방법에 쉽게 통합될 수 있다. 본 방법은 사람의 키포인트 후보를 그래프의 노드로 취하고, 다층 그래프 신경망 모델을 통해 키포인트를 군집화한다. HGG의 모듈은 키포인트 탐지 네트워크와 함께 종단 간(end-to-end)으로 학습이 가능하며, 계층적인 방식으로 그룹화 과정을 감독할 수 있다. 군집화의 구분 능력을 향상시키기 위해, 엣지 구분기(edge discriminators)와 매크로 노드 구분기(macro-node discriminators)를 추가하였다. COCO 및 OCHuman 데이터셋에서 실시한 광범위한 실험을 통해 제안한 방법이 하향식 자세 추정 방법의 성능을 향상시킴을 입증하였다.