Look into Person: Self-supervised Structure-sensitive Learning and A New Benchmark for Human Parsing 사람 탐지: 자기 감독 구조 감응 학습과 새로운 인간 해석 벤치마크

최근 인간 분석(human parsing)은 그 막대한 응용 잠재력으로 인해 많은 연구자의 관심을 받고 있습니다. 그러나 기존 데이터셋들은 이미지와 주석의 수가 제한적이며, 제약이 없는 환경에서의 인간의 다양한 모습과 어려운 사례를 충분히 반영하지 못하고 있습니다. 본 논문에서는 확장성, 다양성, 난이도 측면에서 크게 발전한 새로운 벤치마크 "Look into Person (LIP)"을 소개합니다. 이는 미래의 인간 중심 분석 연구에 있어 중요한 기여라고 생각됩니다. 이 포괄적인 데이터셋은 19개의 의미적 부분 라벨을 가진 50,000개 이상의 정교하게 주석화된 이미지를 포함하며, 더 넓은 시점, 가림 현상 및 배경 복잡성에서 촬영되었습니다. 이러한 풍부한 주석을 바탕으로 우리는 선두적인 인간 분석 접근법들을 상세히 분석하여 이러한 방법들의 성공과 실패 요인에 대한 통찰력을 얻었습니다.또한, 기존 연구들이 특징 구별 능력을 개선하는 데 초점을 맞추는 것과 달리, 우리는 새로운 자기 감독 구조 감응 학습(self-supervised structure-sensitive learning) 방식을 탐구하여 인간 자세 구조를 추가적인 감독(즉, 모델 훈련 시 인간 관절을 특별히 라벨링할 필요 없음) 없이 파싱 결과에 적용하였습니다. 우리의 자기 감독 학습 프레임워크는 어떤 고급 신경망에도 통합될 수 있으며, 전반적인 관점에서 인간 관절에 관한 풍부한 고차 지식을 통합하여 파싱 결과를 개선하는 데 도움이 됩니다. LIP 및 공개 PASCAL-Person-Part 데이터셋에서 수행된 광범위한 평가는 우리 방법의 우수성을 입증합니다.