
초록
단일 채널 RGB 이미지에서 3D 인간 자세를 자동으로 추정하는 것은 컴퓨터 비전 분야에서 어려운 미해결 문제입니다. 지도 학습 방식에서는 노동 집약적인 주석에 크게 의존하며, 3D 자세 데이터셋의 다양성이 제한되어 일반화 능력이 저하되는 문제가 있습니다. 이러한 도전 과제를 해결하기 위해, 우리는 마스크를 감독으로 활용하여 비지도 3D 자세 추정을 수행하는 통합 프레임워크를 제안합니다. 일반적인 비지도 세그멘테이션 알고리즘을 사용하여, 제안된 모델은 조잡한 수준에서 세부적인 수준까지 정확한 자세 정보를 활용하는 뼈대와 체형 표현을 사용합니다. 이전의 비지도 접근 방식과 비교할 때, 우리는 완전히 비지도 방식으로 인간 뼈대를 구성하여 주석이 없는 데이터 처리가 가능하고, 즉시 사용 가능한 추정 결과를 제공합니다. 포괄적인 실험을 통해 Human3.6M 및 MPI-INF-3DHP 데이터셋에서 최고 수준의 자세 추정 성능을 입증하였습니다. 또한 야외 데이터셋에 대한 추가 실험에서도 더 많은 데이터에 접근하여 모델 성능을 향상시키는 능력을 보여주었습니다. 코드는 https://github.com/Charrrrrlie/Mask-as-Supervision 에서 제공될 예정입니다.