
초록
우리는 처음으로 직접적인 엔드투엔드 다인용 포즈 추정 프레임워크인 DirectPose를 제안한다. 최근의 앵커리스 객체 탐지기들에서 타깃 바운딩 박스의 두 꼭짓점을 직접 회귀하는 방식에 영감을 받아, 제안된 프레임워크는 원시 입력 이미지로부터 모든 인스턴스에 대해 인스턴스 인식 키포인트를 직접 예측함으로써, 하향식 방법에서의 휴리스틱 그룹핑이나 상향식 방법에서의 바운딩 박스 탐지 및 RoI 연산을 제거한다. 또한, 이러한 엔드투엔드 프레임워크에서 컨볼루션 특징과 예측 간의 정렬 부족이라는 주요 과제를 해결하기 위해 새로운 키포인트 정렬(KPAlign) 메커니즘을 제안한다. KPAlign는 프레임워크의 성능을 크게 향상시키면서도 엔드투엔드 훈련이 가능하도록 유지한다. 오직 후처리 단계의 비최대 억제(NMS)만을 사용하여, 제안된 프레임워크는 단일 스텝 내에서 바운딩 박스 유무에 관계없이 다인용 키포인트를 탐지할 수 있다. 실험 결과, 엔드투엔드 패러다임이 하향식 및 상향식 방법 모두에서 기존의 강력한 베이스라인과 경쟁하거나 그 이상의 성능을 달성함을 입증하였다. 우리는 이러한 엔드투엔드 접근 방식이 인간 포즈 추정 작업에 새로운 시각을 제공할 수 있기를 기대한다.