12일 전

RGB-D 영상에서 시공간 구조 학습을 통한 인간 행동 탐지 및 예측

{Hema S. Koppula, Ashutosh Saxena}
RGB-D 영상에서 시공간 구조 학습을 통한 인간 행동 탐지 및 예측
초록

과거의 활동을 탐지하고, 미래에 어떤 활동이 언제 어떻게 발생할지를 예측하는 문제를 다룬다. 본 연구에서는 인간의 자세와 물체 간의 풍부한 시공간적 관계(즉, 가능성을 의미하는 '아포드런스')를 조건부 확률장(Conditional Random Field, CRF)을 활용하여 모델링한다. 그러나 활동을 구성하는 하위 활동들에 대한 시간적 분할이 모호할 수 있기 때문에, 과거와 미래 모두에서 여러 가지 그래프 구조가 가능하다. 본 논문에서는 이러한 다양한 가능성들을 다루기 위해 여러 가능한 그래프 구조를 동시에 고려하는 추론 방식을 제안한다. 이를 위해 그래프를 단순한 가산 특성(Additive Features)만으로 근사함으로써 효율적인 동적 프로그래밍을 가능하게 한다. 이 초기 제안된 그래프 구조를 기반으로, 여러 다른 가능성이 높은 그래프 구조를 생성하기 위한 이동(move) 전략을 설계한다. 실험 결과, 4명의 피험자로부터 수집한 총 120개의 활동 영상으로 구성된 데이터셋에서, 과거 활동 탐지와 미래 활동 예측 모두에서 기존의 최고 성능 기법을 크게 개선함을 보여준다.

RGB-D 영상에서 시공간 구조 학습을 통한 인간 행동 탐지 및 예측 | 최신 연구 논문 | HyperAI초신경