ICON: 일반적인 사람에서 암시적으로 얻은 옷을 입은 인간

현재 실감나고 애니메이션화 가능한 3D 옷을 입은 아바타를 학습하는 방법은 포즈가 취해진 3D 스캔이나 사용자의 자세를 철저히 제어한 2D 이미지가 필요합니다. 반면에, 우리의 목표는 제약 없이 자유롭게 포즈를 취하고 있는 사람들의 2D 이미지로부터만 아바타를 학습하는 것입니다. 주어진 이미지 세트에서 각 이미지마다 상세한 3D 표면을 추정한 후 이를 애니메이션화 가능한 아바타로 결합하는 것이 우리의 방법입니다. 암시적 함수는 머리카락과 옷 같은 세부 사항을 포착할 수 있어 이 작업에 적합합니다. 그러나 현재의 방법들은 다양한 인간의 자세에 대해 안정적이지 않아 종종 부러진 또는 분리된 팔다리, 빠진 세부 사항, 또는 비인간적인 형태의 3D 표면을 생성합니다. 이러한 문제는 전역 특징 인코더가 전역 자세에 민감하기 때문입니다. 이를 해결하기 위해, 우리는 로컬 특징을 사용하는 ICON("암시적 옷을 입은 인간으로부터 법선 벡터 추출(Implicit Clothed humans Obtained from Normals)")을 제안합니다.ICON은 두 가지 주요 모듈로 구성되며, 모두 SMPL(-X) 몸체 모델을 활용합니다. 첫째, ICON은 SMPL(-X) 법선 벡터를 조건으로 하여 상세한 옷을 입은 인간의 법선 벡터(앞/뒤)를 추론합니다. 둘째, 시야 인식 암시적 표면 회귀모델은 인간 점유 필드의 등위면(iso-surface)을 생성합니다. 특히 추론 시에는 피드백 루프가 추론된 옷 법선 벡터를 사용하여 SMPL(-X) 메시를 개선하고, 그 다음 다시 법선 벡터를 개선하는 과정을 번갈아 수행합니다. 다양한 자세로 재구성된 주제의 여러 프레임이 주어질 때, 우리는 SCANimate를 사용하여 이를 애니메이션화 가능한 아바타로 변환합니다.AGORA와 CAPE 데이터셋에서의 평가는 ICON이 훈련 데이터가 크게 제한되어 있더라도 재구성 성능에서 기존 최신 기술보다 우수함을 보여줍니다. 또한, 자연 환경에서 촬영된 포즈/이미지나 프레임 밖으로 잘려난 영역과 같은 분포 외 샘플에 대해 훨씬 더 강건하다는 것을 확인할 수 있습니다. ICON은 자연 환경에서 촬영된 이미지로부터 강건하게 3D 옷을 입은 인간을 재구성하는 방향으로 한 걸음을 내딛습니다. 이는 비디오로부터 직접 개인화되고 자연스러운 포즈에 따른 의상 변형이 적용된 아바타를 생성할 수 있게 합니다.