2달 전

명시적 박스 검출이 end-to-end 다중 인물 자세 추정을 통합하다

Jie Yang; Ailing Zeng; Shilong Liu; Feng Li; Ruimao Zhang; Lei Zhang
명시적 박스 검출이 end-to-end 다중 인물 자세 추정을 통합하다
초록

본 논문은 다중 인물 자세 추정을 위한 새로운 엔드투엔드 프레임워크인 명시적 박스 검출을 통한 다중 인물 자세 추정(Explicit box Detection for multi-person Pose estimation, ED-Pose)를 제시합니다. 이 프레임워크는 인간 수준(전역)과 키포인트 수준(국부) 정보 간의 맥락 학습을 통합합니다. 기존의 단일 단계 방법들과 달리, ED-Pose는 이 작업을 통합된 표현과 회귀 감독 하에 두 개의 명시적 박스 검출 과정으로 재고려합니다. 첫째, 인코딩된 토큰에서 전역 특징을 추출하기 위해 인간 검출 디코더를 도입합니다. 이는 후속 키포인트 검출에 좋은 초기화를 제공하여 학습 과정이 빠르게 수렴할 수 있게 합니다. 둘째, 키포인트 근처의 맥락 정보를 도입하기 위해 자세 추정을 키포인트 박스 검출 문제로 간주하여 각 키포인트의 박스 위치와 내용을 학습합니다. 인간-키포인트 검출 디코더는 인간과 키포인트 특징 간의 상호작용 학습 전략을 채택하여 전역 및 국부 특징 집약을 더욱 강화합니다. 일반적으로, ED-Pose는 후처리나 밀집한 히트맵 감독 없이 개념적으로 단순하며, 두 단계 및 단일 단계 방법들에 비해 그 효과성과 효율성을 입증하였습니다. 특히, 명시적 박스 검출은 COCO 데이터셋에서 4.5 AP, CrowdPose 데이터셋에서 9.9 AP 성능 향상을 가져왔습니다. 처음으로, L1 회귀 손실을 사용하는 완전한 엔드투엔드 프레임워크로서 ED-Pose는 동일한 백본 조건에서 히트맵 기반 Top-down 방법들을 1.2 AP로凌上超越(COCO에서), 그리고 복잡한 추가 기법 없이 76.6 AP로 CrowdPose에서 최신 기술(SOTA)를 달성하였습니다. 코드는 https://github.com/IDEA-Research/ED-Pose 에서 확인할 수 있습니다.注:最后一句中的“凌上超越”是中文,可能是原文中的错误。正确的翻译应该是:특히, 명시적 박스 검출은 COCO 데이터셋에서 4.5 AP, CrowdPose 데이터셋에서 9.9 AP 성능 향상을 가져왔습니다. 처음으로, L1 회귀 손실을 사용하는 완전한 엔드투엔드 프레임워크로서 ED-Pose는 동일한 백본 조건에서 히트맵 기반 Top-down 방법들을 1.2 AP로 초월하였으며, 복잡한 추가 기법 없이 76.6 AP로 CrowdPose에서 최신 기술(SOTA)를 달성하였습니다. 코드는 https://github.com/IDEA-Research/ED-Pose 에서 확인할 수 있습니다.如果有其他需要调整的地方,请告知。

명시적 박스 검출이 end-to-end 다중 인물 자세 추정을 통합하다 | 최신 연구 논문 | HyperAI초신경