
초록
본 논문에서는 축구 영상에서 다중 모달(오디오와 비디오) 행동 탐지 및 분류에 대한 연구를 제안합니다. 행동 탐지 및 분류는 영상 내에서 이벤트의 시간적 앵커를 찾고 해당 이벤트가 무엇인지 결정하는 작업을 포함합니다. 이는 일반적인 활동 이해의 중요한 응용 분야입니다. 본 연구에서는 딥 뉴럴 네트워크 구조의 다양한 단계에서 오디오와 비디오 정보를 결합하는 실험적 연구를 제안합니다. 우리는 Big Five 유럽 리그의 500개 축구 경기 영상에 대한 주석이 달린 이벤트를 포함하는 SoccerNet 벤치마크 데이터셋을 사용했습니다. 이번 연구를 통해 오디오 스트림을 비디오 기반 아키텍처에 통합하는 여러 방법을 평가했습니다. 행동 분류 작업에서는 평균 정밀도(mAP, mean Average Precision) 지표가 평균적으로 절대적으로 7.43% 향상되었으며, 행동 탐지 작업에서는 4.19% 향상되었습니다.