CLIFF: 전체 프레임에 위치 정보를 포함시켜 인간의 자세와 형태 추정 수행

상향식(top-down) 방법이 3D 인간 자세 및 형태 추정 분야를 주도하고 있습니다. 이는 상향식 방법들이 인간 검출과 분리되어 있어 연구자들이 핵심 문제에 집중할 수 있기 때문입니다. 그러나, 이들의 첫 단계인 크롭(cropping)은 위치 정보를 처음부터 버림으로써 원래 카메라 좌표 시스템에서의 전역 회전(global rotation)을 정확히 예측하는 것이 불가능하게 만듭니다. 이러한 문제를 해결하기 위해, 우리는 전체 프레임(full frames)에서 위치 정보(location information)를 유지(Carry Location Information in Full Frames, CLIFF)하는 방법을 제안합니다. 구체적으로, 크롭된 이미지 특성(cropped-image feature)과 그 바운딩 박스(bounding box) 정보를 연결(concatenating)하여 CLIFF에 더 통합적인 특성을 제공합니다. 우리는 이미지에 투영된 사람과 유사한 투영 과정(projection process)을 거쳐 전체 프레임의 넓은 시각으로 2D 재투영 손실(reprojection loss)을 계산합니다. 전역 위치 인식(global-location-aware) 정보로 피드되고 감독되는 CLIFF는 전역 회전을 직접 예측하며, 더욱 정확한 관절 자세(articulated poses)를 생성합니다. 또한, 우리는 CLIFF 기반의 가짜 지도 데이터 생성기(pseudo-ground-truth annotator)를 제안하는데, 이는 야외(wild) 2D 데이터셋에 대한 고품질 3D 주석(annotation)을 제공하며, 회귀 기반(regression-based) 방법론에 중요한 완전한 감독(full supervision)을 제공합니다. 인기 있는 벤치마크에서 수행된 광범위한 실험 결과, CLIFF는 기존 기술들보다 크게 우수함을 입증하였으며, AGORA 리더보드(SMPL 알고리즘 트랙)에서 1위를 차지하였습니다. 코드와 데이터는 https://github.com/huawei-noah/noah-research/tree/master/CLIFF 에서 확인할 수 있습니다.