HumanBench: 프로젝터 보조 사전학습을 통한 일반적인 인간 중심 인식 연구

인간 중심 인식은 감시, 자율 주행, 메타버스 등 다양한 산업 응용 분야에서 널리 사용되는 여러 시각 작업을 포함합니다. 다목적 인간 중심 후속 작업을 위한 일반적인 사전 학습 모델이 필요합니다. 본 논문에서는 벤치마크와 사전 학습 방법 측면에서 이 방향으로 진전을 이루고자 합니다. 구체적으로, 기존 데이터셋을 기반으로 하는 \textbf{HumanBench}를 제안하여 6가지 다양한 후속 작업(개인 재식별(Person ReID), 포즈 추정(Pose Estimation), 인간 파싱(Human Parsing), 보행자 속성 인식(Pedestrian Attribute Recognition), 보행자 검출(Pedestrian Detection), 군중 계수(Crowd Counting))에 대한 19개의 데이터셋에서 서로 다른 사전 학습 방법의 일반화 능력을 종합적으로 평가할 수 있습니다. 인간 신체의 거시적 및 미시적 지식을 모두 학습하기 위해, 우리는 \textbf{P}rojector \textbf{A}ssisted \textbf{T}raining \textbf{H}ierarchical(\textbf{PATH}) 사전 학습 방법을 제안하여 다양한 세부 수준에서 다양한 지식을 학습할 수 있도록 하였습니다. HumanBench에서의 종합적인 평가는 우리의 PATH가 17개의 후속 데이터셋에서 새로운 최신 결과를 달성하고, 나머지 2개 데이터셋에서는 유사한 결과를 얻었다는 것을 보여줍니다. 코드는 \href{https://github.com/OpenGVLab/HumanBench}{https://github.com/OpenGVLab/HumanBench}에서 공개될 예정입니다.