
초록
우리는 인간 자세 추정을 위한 통합적 프레임워크인 UniPose를 제안한다. 이는 '워터폴(워터폴)' 아트로우스 공간 풀링 아키텍처를 기반으로 하며, 여러 자세 추정 지표에서 최고 수준의 성능을 달성한다. 기존의 자세 추정 방법은 표준 CNN 아키텍처를 활용하면서 관절 위치 추정에 통계적 후처리 또는 사전 정의된 앵커 자세에 크게 의존하고 있다. 반면 UniPose는 단일 스테이지에서 맥락 기반 세그멘테이션과 관절 위치 추정을 통합하여, 통계적 후처리 기법에 의존하지 않고도 높은 정확도로 인간 자세를 추정한다. UniPose의 워터폴 모듈은 캐스케이드 아키텍처에서의 점진적 필터링의 효율성을 활용하면서도, 공간 피라미드 구성과 유사한 다중 스케일 시야각을 유지한다. 또한 본 연구는 다중 프레임 처리를 위한 UniPose-LSTM으로 확장되었으며, 영상에서의 시간적 자세 추정 분야에서도 최고 수준의 성능을 달성하였다. 다양한 데이터셋에 대한 실험 결과를 통해, ResNet 백본과 워터폴 모듈을 갖춘 UniPose가 단일 인물 자세 검출에서 단일 이미지 및 영상 모두에 걸쳐 뛰어난 정확도와 효율성을 동시에 제공하는 강력하고 효율적인 아키텍처임을 입증하였다.