2달 전

AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation AiOS: 단일 단계에서의 표현력 있는 인간 자세 및 형태 추정

Sun, Qingping ; Wang, Yanjun ; Zeng, Ailing ; Yin, Wanqi ; Wei, Chen ; Wang, Wenjia ; Mei, Haiyi ; Leung, Chi Sing ; Liu, Ziwei ; Yang, Lei ; Cai, Zhongang
AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation
AiOS: 단일 단계에서의 표현력 있는 인간 자세 및 형태 추정
초록

표현력 있는 인간 자세 및 형태 추정(별명: 3D 전체 몸체 메시 복원)은 인간의 몸, 손, 그리고 표정을 추정하는 과정을 포함합니다. 기존의 대부분 방법들은 이 작업을 두 단계로 수행하여, 먼저 사전 학습된 검출 모델을 사용해 인간 신체 부위를 감지하고 각각의 다른 신체 부위를 추론하였습니다. 이러한 방법들이 뛰어난 결과를 달성하였음에도 불구하고, 1) 크롭을 통해 귀중한 맥락 정보 손실, 2) 분산 요인 도입, 3) 다양한 사람과 신체 부위 간의 상호 연관성 부족 등의 문제로 인해 성능 저하가 불가피하게 발생하였습니다. 특히 혼잡한 장면에서 이러한 문제는 더욱 두드러집니다. 이러한 문제들을 해결하기 위해 우리는 추가적인 인간 검출 단계 없이 여러 표현력 있는 인간 자세 및 형태를 복원하기 위한 새로운 일괄 처리 프레임워크, AiOS를 소개합니다.구체적으로, 우리의 방법은 DETR에 기반하여 다중 인물 전체 몸체 메시 복원 작업을 다양한 순차적 검출을 통한 점진적인 집합 예측 문제로 취급합니다. 우리는 디코더 토큰을 설계하고 이를 우리의 작업에 확장하였습니다. 먼저, 이미지 내의 인간 위치를 탐색하고 각 인스턴스에 대한 전역 특성을 인코딩하기 위해 인간 토큰(human token)을 사용합니다. 이는 후속 트랜스포머 블록에 대략적인 위치 정보를 제공합니다. 그 다음, 이미지 내의 인간 관절을 탐색하고 세부적인 지역 특성을 인코딩하기 위해 관절 관련 토큰(joint-related token)을 도입합니다. 이는 전역 특성과 협력하여 전체 몸체 메시를 회귀(regress)합니다.이와 같이 직관적이면서도 효과적인 모델은 AGORA 데이터셋에서 NMVE(Normalized Mean Vertex Error)가 9% 감소하였으며, EHF(EgoHands and Faces) 데이터셋에서는 PVE(Position Vertex Error)가 30% 감소하였고, ARCTIC 데이터셋에서는 PVE가 10% 감소하였으며, EgoBody 데이터셋에서도 PVE가 3% 감소하는 등 기존 최신 연구 방법들보다 우수한 성능을 보여주었습니다.

AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation AiOS: 단일 단계에서의 표현력 있는 인간 자세 및 형태 추정 | 최신 연구 논문 | HyperAI초신경