2달 전

덜 하면서 더 이루기: 웹에서 얻은 행동 이미지를 활용한 CNN의 행동 인식 훈련

Shugao Ma; Sarah Adel Bargal; Jianming Zhang; Leonid Sigal; Stan Sclaroff
덜 하면서 더 이루기: 웹에서 얻은 행동 이미지를 활용한 CNN의 행동 인식 훈련
초록

최근, 비디오에서의 행동 인식을 위해 CNN 모델을 훈련시키기 위한 수백만 개의 비디오 수집 시도가 이루어지고 있습니다. 그러나 이러한 대규모 비디오 데이터셋을 구성하는 것은 막대한 인간의 노동력을 필요로 하며, 수백만 개의 비디오를 통해 CNN을 훈련시키는 것은 엄청난 계산 자원이 요구됩니다. 반면에, 웹에서 행동 이미지를 수집하는 것은 훨씬 쉽고, 이미지를 통해 훈련시키는 것은 훨씬 적은 계산량이 필요합니다. 또한, 라벨링된 웹 이미지는 일반적으로 차별적인 행동 포즈를 포함하여, 비디오의 시간적 진행 과정에서 중요한 부분들을 강조합니다. 우리는 웹 행동 이미지를 활용하여 비디오에서의 행동 인식을 위한 더 나은 CNN 모델을 훈련시킬 수 있는지에 대한 질문을 탐구합니다. UCF101 행동 비디오 데이터셋에 포함된 101개의 행동을 묘사하는 웹에서 23,800개의 수작업으로 필터링된 이미지를 수집했습니다. 실험 결과, 웹 행동 이미지와 비디오를 함께 활용하여 훈련할 경우 CNN 모델의 성능이 크게 향상됨을 보였습니다. 이후, UCF101과 ActivityNet에 대해 크롤링된 웹 이미지(필터링되지 않은)를 활용하여 이 과정의 확장성을 조사하였습니다. 1620만 개의 비디오 프레임을 393,000개의 필터링되지 않은 이미지로 대체하였으며, 유사한 성능을 얻었습니다.

덜 하면서 더 이루기: 웹에서 얻은 행동 이미지를 활용한 CNN의 행동 인식 훈련 | 최신 연구 논문 | HyperAI초신경