
초록
포즈 추적은 비디오의 다양한 프레임 간에 고유한 인간 포즈 인스턴스를 식별하고 시간적으로 일치시키는 것을 요구하는 중요한 문제이다. 그러나 기존의 포즈 추적 방법들은 시간적 관계를 정확히 모델링하지 못하며, 상당한 계산량을 필요로 하며, 대부분 오프라인으로 트랙을 계산한다. 본 연구에서는 RGB 또는 광학 흐름 정보를 전혀 사용하지 않고, 키포인트 정보만을 기반으로 실시간으로 인간 키포인트를 추적하는 효율적인 다인용 포즈 추적 방법인 KeyTrack을 제안한다. 키포인트는 본 연구에서 제안하는 포즈 함의(Pose Entailment) 기법을 통해 추적되며, 이 기법은 먼저 비디오의 서로 다른 프레임에서 포즈 추정 쌍을 샘플링하고 토큰화한 후, Transformer 기반의 네트워크가 하나의 포즈가 다른 포즈를 시간적으로 이어받는지 여부를 이진 분류하는 방식으로 동작한다. 또한, 포즈 함의 단계에서 사용되는 키포인트 추정을 향상시키기 위해, 파라미터가 필요 없고 새로운 형태의 키포인트 정밀화 기법을 상단 다운 방식의 포즈 추정 방법에 도입하였다. 제안한 방법은 PoseTrack'17 및 PoseTrack'18 벤치마크에서 최신 기술 수준의 성능을 달성하였으며, 대부분의 다른 방법이 추적 정보를 계산하는 데 요구하는 계산량의 일부만을 사용하였다.