2달 전

2022년 MediaEval 스포츠 과제를 위한 3D CNNs와 어텐션 메커니즘을 사용한 베이스라인 방법

Pierre-Etienne Martin
2022년 MediaEval 스포츠 과제를 위한 3D CNNs와 어텐션 메커니즘을 사용한 베이스라인 방법
초록

본 논문은 MediaEval 2022 벤치마크의 스포츠 비디오 작업 부분에 제안된 기준선 방법을 소개합니다. 이 작업은 두 개의 하위 작업을 제안합니다: 편집된 비디오에서 스트로크 분류와 편집되지 않은 비디오에서 스트로크 검출입니다. 본 기준선 방법은 두 가지 하위 작업 모두를 다룹니다. 우리는 두 가지 유형의 3D-CNN 아키텍처를 제안하여 두 하위 작업을 해결합니다. 모든 3D-CNN은 시공간 합성곱(Spatio-temporal convolutions)과 주의 메커니즘(attention mechanisms)을 사용합니다. 아키텍처와 학습 과정은 해당하는 하위 작업을 해결하기 위해 맞춤화되었습니다. 본 기준선 방법은 참가자들이 연구를 진행하고, 비디오 처리, 학습 방법, 평가 및 제출 절차와 같은 작업의 일부 측면을 완화할 수 있도록 공개적으로 온라인으로 공유됩니다. 분류 하위 작업에서는 v2 모델을 사용하여 86.4%의 정확도를 달성했습니다. 검출 하위 작업에서는 v1 모델을 사용하여 mAP(median Average Precision) 0.131과 IoU(Intersection over Union) 0.515를 달성했습니다.

2022년 MediaEval 스포츠 과제를 위한 3D CNNs와 어텐션 메커니즘을 사용한 베이스라인 방법 | 최신 연구 논문 | HyperAI초신경