2달 전

스파르스하게 라벨링된 비디오에서 시간적 포즈 추정 학습

Gedas Bertasius; Christoph Feichtenhofer; Du Tran; Jianbo Shi; Lorenzo Torresani
스파르스하게 라벨링된 비디오에서 시간적 포즈 추정 학습
초록

현대의 비디오에서 다중 인물 자세 추정을 위한 접근 방식은 많은 양의 밀도 높은 주석이 필요합니다. 그러나 비디오의 모든 프레임을 라벨링하는 것은 비용이 많이 들고 노동 집약적입니다. 이러한 밀도 높은 주석의 필요성을 줄이기 위해, 우리는 희소 주석(매 k 프레임마다)이 있는 훈련 비디오를 활용하여 밀도 높은 시간적 자세 전파 및 추정을 수행하도록 학습하는 PoseWarper 네트워크를 제안합니다. 라벨링된 프레임 A와 라벨링되지 않은 프레임 B의 비디오 프레임 쌍이 주어지면, 우리는 변형 가능한 컨볼루션을 통해 A와 B 사이의 자세 왜곡을 암시적으로 학습함으로써, 우리의 모델을 프레임 B의 특성을 사용하여 프레임 A에서 인간 자세를 예측하도록 훈련시킵니다. 우리는 훈련된 PoseWarper를 여러 응용 분야에 활용할 수 있음을 보여줍니다. 첫째, 추론 시에는 우리의 네트워크 적용 방향을 역전하여 수동으로 주석화된 프레임에서 라벨링되지 않은 프레임으로 자세 정보를 전파할 수 있습니다. 이는 단 몇 개의 수동으로 주석화된 프레임만 제공되어도 전체 비디오에 대한 자세 주석 생성이 가능하게 합니다. 광학 유동 기반 현대 라벨 전파 방법과 비교했을 때, 우리의 왜곡 메커니즘은 훨씬 더 간결하며(6M 대 39M 매개변수) 정확성도 더 우수합니다(88.7% mAP 대 83.8% mAP). 또한, 우리가 전파한 자세를 원래 수동 라벨에 추가하여 얻은 확장 데이터셋으로 포즈 추정기를 훈련시키면 그 정확성이 향상됨을 보여주었습니다. 마지막으로, 추론 중에 우리 PoseWarper를 사용하여 인접한 프레임들로부터 시간적 포즈 정보를 집계할 수 있습니다. 이를 통해 우리의 시스템은 PoseTrack2017 및 PoseTrack2018 데이터셋에서 최신 포즈 검출 결과를 달성할 수 있었습니다. 코드는 다음 링크에서 이용 가능합니다: https://github.com/facebookresearch/PoseWarper.

스파르스하게 라벨링된 비디오에서 시간적 포즈 추정 학습 | 최신 연구 논문 | HyperAI초신경