한 달 전
동적 커널 디스틸레이션을 이용한 비디오에서의 효율적인 포즈 추정
Xuecheng Nie; Yuncheng Li; Linjie Luo; Ning Zhang; Jiashi Feng

초록
기존의 비디오 기반 인간 자세 추정 방법은 비디오의 모든 프레임에 큰 네트워크를 광범위하게 적용하여 신체 관절을 위치화하므로, 높은 계산 비용과 실제 응용에서 요구되는 저지연성 요구 사항을 충족시키기 어렵다. 이 문제를 해결하기 위해, 우리는 비디오에서 인간 자세를 추정하는 데 소형 네트워크를 활용하기 위한 새로운 동적 커널 디스틸레이션(DKD) 모델을 제안한다. 특히, DKD는 이전 프레임에서 시간적 힌트를 활용하여 포즈 커널을 한 번에 전방으로 디스틸하는 경량 디스틸레이터를 도입한다. 그런 다음, DKD는 포즈 커널과 현재 프레임 간의 매칭 절차로 신체 관절 위치화를 단순화하여 간단한 합성곱을 통해 효율적으로 계산할 수 있다. 이렇게 하면 DKD는 한 프레임에서 다른 프레임으로 신속하게 포즈 지식을 전달하여 신체 관절 위치화에 대한 압축된 안내를 제공할 수 있으며, 이는 비디오 기반 자세 추정에서 소형 네트워크의 활용을 가능하게 한다. 훈련 과정을 촉진하기 위해, DKD는 시간적 적대 훈련 전략을 활용하여 장시간 범위 내에서 시간적으로 일관된 포즈 커널과 포즈 추정 결과를 생성하는 데 도움이 되는 시간 판별기를 도입한다. Penn Action 및 Sub-JHMDB 벤치마크에서 수행한 실험은 DKD가 이전 최고 모델 대비 10배의 FLOPs 감소와 2배의 속도 향상을 달성하면서 최신 기술 수준의 정확성을 보여주는 것을 입증하였다.