17일 전
주목의 중심: 다중 인원 포즈 추정을 위한 어텐션을 통한 중심 키포인트 그룹화
Guillem Brasó, Nikita Kister, Laura Leal-Taixé

초록
우리는 이미지 내에서 신원 무관한 키포인트와 사람 중심점 예측을 기반으로 인간 자세를 추정하는 주의 기반 프레임워크인 CenterGroup을 소개한다. 본 방법은 트랜스포머를 활용해 검출된 모든 키포인트 및 중심점에 대해 맥락 인지형 임베딩을 얻은 후, 다중 헤드 주의(multi-head attention)를 적용하여 관절을 직접 해당 사람 중심점에 그룹화한다. 대부분의 하향식(bottom-up) 방법이 추론 시 학습되지 않은 클러스터링에 의존하는 반면, CenterGroup은 키포인트 검출기와 함께 엔드 투 엔드로 훈련 가능한 완전히 미분 가능한 주의 메커니즘을 사용한다. 그 결과, 기존의 하향식 방법들에 비해 최대 2.5배 빠른 추론 속도를 달성하면서도 최신 기술(SOTA) 수준의 성능을 보였다. 본 연구의 코드는 https://github.com/dvl-tum/center-group 에서 공개되어 있다.