Top-Down과 Bottom-Up 네트워크를 통합한 단일 카메라 3D 다중 인물 자세 추정

단일 카메라 비디오에서의 3D 다중 인물 자세 추정에서, 인물 간 가림 현상과 밀접한 상호작용은 인물 감지에 오류를 초래하고, 인체 관절 그룹화를 신뢰할 수 없게 만듭니다. 기존의 위아래 방법은 인물 감지에 의존하므로 이러한 문제들에 취약합니다. 반면, 기존의 아래위 방법은 인물 감지를 사용하지 않지만, 모든 사람을 동일한 스케일로 한 번에 처리하기 때문에 여러 사람 사이의 스케일 변화에 민감합니다. 이러한 도전 과제들을 해결하기 위해, 우리는 위아래와 아래위 접근 방식을 통합하여 각각의 장점을 활용하는 방법을 제안합니다.우리의 위아래 네트워크는 이미지 패치 내의 한 명이 아닌 모든 사람들의 관절을 추정하여 가능한 오류가 있는 바운딩 박스에도 견고하게 대응합니다. 우리의 아래위 네트워크는 인물 감지 기반 정규화된 히트맵을 통합하여 스케일 변화를 처리하는 데 더욱 견고해집니다. 마지막으로, 위아래와 아래위 네트워크에서 추정된 3D 자세들은 최종 3D 자세를 생성하기 위해 우리의 통합 네트워크로 전달됩니다.또한, 기존의 자세 판별기들이 단일 인물을 위한 것만 설계되어 있어 자연스러운 다중 인물 상호작용을 평가할 수 없는 문제점이 있습니다. 이에 대해 우리는 두 명의 인물을 위한 자세 판별기를 제안하여 자연스러운 두 명 간 상호작용을 강제합니다. 마지막으로, 3D 지상 진실 데이터 부족 문제를 극복하기 위해 준지도 학습 방법도 적용하였습니다.우리의 정량적 및 정성적 평가는 기존 최신 베이스라인들과 비교하여 우리 방법의 효과성을 입증합니다.