한 달 전
LSTM 포즈 머신
Yue Luo; Jimmy Ren; Zhouxia Wang; Wenxiu Sun; Jinshan Pan; Jianbo Liu; Jiahao Pang; Liang Lin

초록
최근 단일 이미지 인간 자세 추정에서 최고의 성과는 다단계 합성곱 신경망(CNN)을 통해 달성되었습니다. 그러나 이러한 모델들을 비디오에 적용할 때는 계산적으로 매우 부담스럽고, 성능 저하와 깜빡임(flicking) 문제도 발생합니다. 이러한 비효율적인 결과는 주로 시퀀스 간 기하학적 일관성을 강제하는 능력 부족, 심각한 이미지 품질 저하(예: 움직임 블러 및 가림) 처리 능력 부족, 그리고 비디오 프레임 간 시간적 상관관계를 포착하지 못하는 능력 부족 때문입니다. 본 논문에서는 이러한 문제들을 해결하기 위한 새로운 순환 네트워크를 제안합니다. 우리는 다단계 CNN에 가중치 공유 방식을 적용하면 이를 순환 신경망(RNN)으로 재작성할 수 있음을 보였습니다. 이 특성은 여러 네트워크 단계 간의 관계를 분리하여 비디오에서 네트워크 호출 속도가 크게 빨라집니다. 또한 비디오 프레임 사이에 장단기 기억(LSTM) 유닛을 도입할 수 있게 합니다. 우리는 이러한 메모리 강화된 RNN이 프레임 간 기하학적 일관성을 강제하는 데 매우 효과적이며, 비디오에서 입력 품질 저하를 잘 처리하면서 순차적인 출력을 안정적으로 유지함을 발견했습니다. 실험 결과, 우리의 접근법은 두 개의 대규모 비디오 자세 추정 벤치마크에서 현재 최고 수준의 방법들보다 크게 우수한 성능을 보였습니다. 또한 LSTM 내부의 메모리 셀을 탐구하고, 이러한 메커니즘이 왜 비디오 기반 자세 추정 예측에 도움이 되는지에 대한 통찰력을 제공하였습니다.