4달 전

다중 규모 구조 인식 네트워크를 이용한 인간 자세 추정

Lipeng Ke; Ming-Ching Chang; Honggang Qi; Siwei Lyu
다중 규모 구조 인식 네트워크를 이용한 인간 자세 추정
초록

우리는 인간 자세 추정을 위한 강건한 다중 스케일 구조 인식 신경망을 개발하였습니다. 이 방법은 최근의 딥 컨브-디컨브 아워글래스 모델을 네 가지 핵심 개선 사항으로 향상시킵니다: (1) 스케일 간 특징 맵을 결합하여 몸체 키포인트를 일치시키는 문맥 특징 학습을 강화하는 다중 스케일 감독, (2) 전역적으로 다중 스케일 특징의 구조적 일치성을 최적화하는 끝단의 다중 스케일 회귀 네트워크, (3) 중간 감독과 회귀에서 사용되는 구조 인식 손실 함수로, 키포인트와 해당 이웃의 일치성을 개선하여 고차원적인 일치 구성(infer a higher-order matching configurations)을 유추합니다, (4) 인접 일치를 통해 가려진 키포인트를 강건하게 위치 추정할 수 있도록 효과적으로 미세 조정할 수 있는 키포인트 마스킹 학습 방안입니다.우리의 방법은 스케일 다양성, 가림 현상, 복잡한 다중 사람 상황 등으로 인해 어려움을 겪는 최신 자세 추정 방법들을 효과적으로 개선할 수 있습니다. 이 다중 스케일 감독은 회귀 네트워크와 긴밀히 통합되어 (i) 다중 스케일 특징들의 앙상블을 사용하여 키포인트를 위치 추정하고, (ii) 여러 키포인트와 스케일 간의 구조적 일관성을 최대화하여 전역적인 자세 구성(global pose configuration)을 유추합니다. 키포인트 마스킹 학습은 이러한 장점을 강화하여 어려운 가림 샘플에 대한 학습에 집중할 수 있게 합니다. 우리의 방법은 최신 기술들 사이에서 MPII 챌린지 리더보드에서 선두 위치를 차지하고 있습니다.