
본 연구는 고급 키포인트 검출 문제를 해결하는 것을 목표로 합니다: 복잡한 실제 환경에서 어떠한 키포인트도 정확히 검출하는 방법, 이는 대규모, 혼란스러운 그리고 개방형 객체와 그에 따른 키포인트 정의를 포함합니다. 현재 고성능 키포인트 검출기들은 두 단계 방식, 미흡한 프롬프트 설계, 그리고 제한된 학습 데이터로 인해 이 문제를 해결하기 어려워합니다. 이러한 격차를 메우기 위해 우리는 X-Pose라는 새로운 엔드투엔드 프레임워크를 제안합니다. 이 프레임워크는 시각적, 텍스트적 혹은 이들의 조합으로 이루어진 다중 모달 프롬프트를 사용하여 주어진 이미지 내의 관절구조(예: 인간과 동물), 강체, 그리고 연성 객체들의 다중 객체 키포인트를 검출할 수 있습니다. 또한, 40만 개 이상의 인스턴스에 걸쳐 1,237개 범주와 338개 키포인트를 통합한 13개의 키포인트 검출 데이터셋을 포함하는 대규모 데이터셋 UniKPT를 소개합니다. UniKPT로 학습된 X-Pose는 교차 모달 대조학습을 기반으로 한 다중 모달 프롬프트의 상호 보완 효과 덕분에 텍스트-키포인트와 이미지-키포인트 간의 효과적인 일치성을 달성합니다. 실험 결과, X-Pose는 각각 공정한 설정에서 최신 비프롬프트 기반, 시각적 프롬프트 기반, 그리고 텍스트적 프롬프트 기반 방법들보다 27.7 AP, 6.44 PCK, 7.0 AP의 유의미한 성능 개선을 보였습니다. 더욱 중요한 것은 야외 테스트가 X-Pose가 이미지 스타일, 객체 범주, 포즈 등 다양한 조건에서 세밀한 키포인트 위치 추정과 일반화 능력을 갖추고 있음을 입증한다는 점입니다. 이를 통해 실제 응용 분야에서 다중 객체 키포인트 검출에 대한 새로운 접근 방식을 제시하고 있습니다. 우리의 코드와 데이터셋은 https://github.com/IDEA-Research/X-Pose에서 확인할 수 있습니다.