코스리 주석된 스포츠 비디오에서 병렬 다수의 수용 영역 1D 컨볼루션을 이용한 이벤트 감지

스포츠 비디오 분석과 같은 문제에서는 긴 비디오와 방대한 양의 비디오 데이터로 인해 정확한 프레임 단위 주석과 정확한 이벤트 지속 시간을 얻는 것이 어렵습니다. 이러한 문제는 아이스하키와 같은 빠른 템포의 스포츠에서 더욱 두드러집니다. 대략적인 스케일로 주석을 얻는 것은 훨씬 실용적이고 시간 효율적이 될 수 있습니다. 본 연구에서는 대략적으로 주석이 달린 비디오에서 이벤트 검출이라는 과제를 제안합니다. 또한 제안된 과제를 위해 다중 타워 시계열 합성곱 네트워크 아키텍처를 소개합니다. 이 네트워크는 여러 수용 필드의 도움으로 다양한 시계열 스케일에서 정보를 처리하여 정확한 이벤트 위치와 지속 시간에 대한 불확실성을 고려합니다. 적절한 절차 해체 연구(ablation studies)를 통해 다중 수용 필드 아키텍처의 효과성을 입증하였습니다. 해당 방법은 NHL 데이터셋에서 대략적으로 주석이 달린 하키 비디오의 이벤트 검출과 SoccerNet 데이터셋에서 축구의 이벤트 스폿팅(event spotting) 두 가지 과제에 대해 평가되었습니다. 두 데이터셋은 프레임 단위 주석이 부족하며, 매우 다른 이벤트 빈도를 가지고 있습니다. 실험 결과, 네트워크가 NHL 데이터셋에서 평균 F1 점수 55%를 기록하고, SoccerNet 데이터셋에서는 최신 기술(state of the art)과 비교해 경쟁력 있는 성능을 보였습니다. 우리는 우리의 접근법이 스포츠 비디오에서 이벤트 검출을 위한 더 실용적인 파이프라인 개발에 도움이 될 것으로 믿습니다.