
초록
인간 자세 추정은 많은 컴퓨터 비전 작업에서 중요한 역할을 하며 수십 년 동안 연구되어 왔습니다. 그러나 자세, 조명, 가림 현상 및 저해상도로 인한 복잡한 외관 변동으로 인해 여전히 어려운 문제입니다. 딥 컨볼루션 신경망에서 얻을 수 있는 고수준의 의미론적 정보를 활용하는 것은 인간 자세 추정의 정확성을 향상시키는 효과적인 방법입니다. 본 논문에서는 견고한 인간 자세 추정을 위해 여러 개의 아워글래스 네트워크를 연속적으로 연결하는 새로운 캐스케이드 피처 집계(Cascade Feature Aggregation, CFA) 방법을 제안합니다. 다른 단계에서 얻은 특징들이 집계되어 풍부한 맥락 정보를 획득하여, 자세, 부분 가림 현상 및 저해상도에 대한 견고성을 제공합니다. 또한, 다른 단계에서 얻은 결과들을 융합하여 위치 결정의 정확성을 더욱 향상시킵니다. MPII 데이터셋과 LIP 데이터셋에 대한 광범위한 실험 결과가 제안된 CFA가 최신 기술보다 우수하며, 최신 기술 벤치마크인 MPII에서 최고의 성능을 달성함을 보여줍니다.