YOLO-Pose: 객체 키포인트 유사성 손실을 사용한 다중 인물 포즈 추정을 위한 YOLO 개선

우리는 YOLO-pose를 소개합니다. 이는 인기 있는 YOLO 객체 검출 프레임워크를 기반으로 하는 새로운 히트맵 없는 관절 검출 및 이미지 내 2D 다중 사람 자세 추정 방법입니다. 기존의 히트맵 기반 두 단계 접근 방식은 최적화되지 않았습니다. 이들 방식은 최종 평가 지표인 객체 키포인트 유사성(Object Keypoint Similarity, OKS)을 극대화하는 것과 동일하지 않은 대체 L1 손실에 의존하여 학습되기 때문입니다. 우리의 프레임워크는 모델을 엔드투엔드로 학습할 수 있게 하며, OKS 지표 자체를 최적화할 수 있습니다. 제안된 모델은 단일 순방향 패스에서 여러 사람의 바운딩 박스와 해당 2D 자세를 동시에 검출하도록 학습됩니다. 이를 통해 상향식(top-down) 접근 방식과 하향식(bottom-up) 접근 방식의 장점을 모두 결합하였습니다. 제안된 접근 방식은 각 바운딩 박스에 자세가 연결되어 있으므로, 하향식 접근 방식에서 필요한 감지된 키포인트들을 스켈레톤으로 그룹화하는 후처리 과정이 필요하지 않습니다. 상향식 접근 방식과 달리, 모든 사람이 단일 추론에서 위치와 자세가 함께 결정되므로 여러 번의 순방향 패스가 필요 없습니다. YOLO-pose는 COCO 검증 세트(90.2% AP50)와 테스트-개발 세트(90.3% AP50)에서 새로운 최고 성능 결과를 달성하였으며, 플립 테스트, 다중 스케일 테스트 또는 기타 어떤 시험 시간 증강도 없이 모든 기존 하향식 접근 방식을 단일 순방향 패스로 능가하였습니다. 본 논문에서 보고된 모든 실험 및 결과는 플립 테스트나 다중 스케일 테스트 등의 시험 시간 증강 없이 수행되었습니다. 우리의 학습 코드는 https://github.com/TexasInstruments/edgeai-yolov5 와 https://github.com/TexasInstruments/edgeai-yolox 에서 공개될 예정입니다.