17일 전
MARS: 동작 증강 RGB 스트림을 활용한 동작 인식
{ Cordelia Schmid, Karteek Alahari, Philippe Weinzaepfel, Nieves Crasto}

초록
최근의 동작 인식 최첨단 방법은 주로 3D 컨볼루션을 사용하는 이중 스트림 아키텍처로 구성되어 있다. 이 아키텍처는 RGB 프레임을 처리하는 외관 스트림과 광학 흐름 프레임을 처리하는 운동 스트림으로 나뉜다. RGB와 광학 흐름을 결합함으로써 성능 향상이 가능하지만, 정확한 광학 흐름을 계산하는 비용이 높고, 이로 인해 동작 인식의 지연 시간이 증가한다. 이러한 문제는 실시간 응용에서 낮은 지연 시간을 요구하는 환경에서 이중 스트림 접근 방식의 활용을 제한한다. 본 논문에서는 테스트 시 광학 흐름 계산을 피할 수 있도록, RGB 프레임을 입력으로 사용하는 표준 3D CNN을 운동 스트림의 특성을 모방하도록 학습하는 두 가지 학습 방식을 제안한다. 첫 번째로, 광학 흐름 스트림과 비교하여 특징 기반 손실을 최소화함으로써, 네트워크가 운동 스트림을 높은 정밀도로 재현함을 보여준다. 두 번째로, 외관 정보와 운동 정보를 효과적으로 활용하기 위해 특징 기반 손실과 기존의 교차 엔트로피 손실의 선형 조합을 사용하여 학습한다. 이러한 복합 손실을 통해 학습된 스트림을 '운동 보강형 RGB 스트림(Motion-Augmented RGB Stream, MARS)'이라 정의한다. 단일 스트림으로서 MARS는 RGB 또는 광학 흐름 스트림만 사용하는 경우보다 우수한 성능을 보이며, Kinetics 데이터셋에서 72.7%의 정확도를 기록하여 각각 RGB 스트림의 72.0%와 광학 흐름 스트림의 65.6%보다 높은 성능을 달성한다.