7일 전
두 스트림 컨볼루션 신경망과 확장형 순환 신경망을 이용한 축구 이벤트 탐지
{Ram Gopal Raj, Erma Rahayu Mohd Faizal, Behzad Mahaseni}
초록
이 논문은 긴 축구(풋볼) 영상에서 이벤트 탐지 및 위치 결정 문제를 다룬다. 본 연구의 핵심 아이디어는 긴 축구 영상에서 정확한 이벤트 위치 결정을 위해서는 영상 프레임 간의 장거리 상관관계를 이해하는 것이 필수적이라는 점이다. 또한, 인접한 영상 프레임 간의 중거리 및 단거리 상관관계를 고려하지 않고는 빠른 움직임이 포함된 축구 영상에서 적절한 이벤트 탐지가 가능하지 않다는 점을 강조한다. 우리는 단거리에서 장거리에 이르는 프레임 간 상관관계를 통합된 아키텍처에서 고려함으로써 이벤트 탐지 성능을 크게 향상시킬 수 있다고 주장한다. 장거리 및 중거리 상관관계를 모델링하기 위해, 이중 스트림 컨볼루션 신경망(Two-stream CNN) 특징을 기반으로 한 확장된 순환 신경망(DilatedRNN)과 장기 기억 단위(LSTM)를 제안한다. 이중 스트림 CNN은 세부적인 미세한 공간-시간 특징을 추출하는 데 유용하지만, DilatedRNN은 멀리 떨어진 프레임들로부터 얻은 정보를 분류기 및 이벤트 탐지 알고리즘에 활용할 수 있도록 한다. 공개적으로 이용 가능한 가장 큰 축구 데이터셋인 SoccerNet을 대상으로 제안한 이벤트 탐지 알고리즘을 평가한 결과, 기존 최고 성능(SOTA) 대비 정확도가 0.8%에서 13.6%까지 향상되었으며, 기준 모델 대비 최대 30.1%의 정확도 향상을 기록하였다. 또한, 광범위한 아블레이션 스터디를 통해 각 신경망 구성 요소가 이벤트 탐지 정확도에 기여하는 정도를 체계적으로 분석하였다.