16일 전

VPN++: 일상 활동 이해를 위한 비디오-포즈 임베딩의 재고찰

Srijan Das, Rui Dai, Di Yang, Francois Bremond
VPN++: 일상 활동 이해를 위한 비디오-포즈 임베딩의 재고찰
초록

일상 활동(ADL) 인식을 위해 RGB와 3D 자세 정보를 결합하려는 다양한 시도가 이루어져 왔다. ADL은 외관상 매우 유사할 수 있으며, 이를 정확히 구분하기 위해 세부적인 특징을 모델링하는 것이 필요하다. 최근의 3D ConvNet은 동작 전반에 걸친 미세한 시각적 패턴을 포착하기에 지나치게 유연성이 부족한 편이다. 따라서 이 연구 분야는 RGB와 3D 자세 정보를 결합하는 방법이 주를 이룬다. 그러나 적절한 센서가 없을 경우 RGB 스트림에서 3D 자세를 추출하는 계산 비용은 매우 높다. 이로 인해 기존의 이러한 접근법은 낮은 지연 시간을 요구하는 실세계 응용 프로그램에서의 활용을 제한받는다. 그렇다면, ADL 인식을 위해 3D 자세 정보를 어떻게 최적화하여 활용할 수 있을까? 이를 해결하기 위해 우리는 자세 기반 주의 메커니즘의 확장판인 Video-Pose Network(VPN)을 제안하며, 두 가지 독립적인 방향을 탐구한다. 하나는 RGB 정보에 자세 지식을 특징 수준에서 전이하는 방식이며, 다른 하나는 주의 수준에서 자세 기반 주의를 모방하는 방식이다. 마지막으로, 이 두 가지 접근법을 하나의 모델에 통합하여 VPN++을 제안한다. 본 연구에서는 VPN++이 효과적인 동시에 높은 속도 향상과 노이즈가 있는 자세에 대한 높은 내성성을 제공함을 보여준다. 3D 자세가 있든 없든 VPN++은 4개의 공개 데이터셋에서 대표적인 기준 모델들을 모두 상회한다. 코드는 https://github.com/srijandas07/vpnplusplus 에서 공개되어 있다.