12일 전

TrackNetV2: 효율적인 샷신트 추적 네트워크

{Tsì-Uí İk, Ho-Yi Chung, Dung-Ru Yu, Tzu-Han Hsu, Shao-Ping Chuang, Yu-Ching Lin, Nien-En Sun}
초록

TrackNet은 테니스공이나 배드민턴 샷의와 같은 고속·소형 물체를 영상에서 추적하기 위해 제안된 딥러닝 네트워크이다. 흐림, 후광, 단기적 가림 등 낮은 영상 품질 문제를 극복하기 위해, 연속된 일정 수의 이미지를 함께 입력하여 비행 중인 물체를 탐지한다. 본 연구에서는 TrackNet의 성능을 다양한 측면에서 개선하기 위해 TrackNetV2를 제안한다. 특히 처리 속도, 예측 정확도 및 GPU 메모리 사용량 측면에서 개선을 달성하였다. 먼저, 처리 속도는 기존 2.6 FPS에서 31.8 FPS로 향상되었다. 이는 입력 이미지 크기를 축소하고, 기존의 다중 입력 단일 출력(MISO) 아키텍처를 다중 입력 다중 출력(MIMO) 아키텍처로 재설계함으로써 달성되었다. 다음으로, 예측 정확도 향상을 위해 다양한 배드민턴 경기 영상에서 수집한 종합적인 데이터셋을 구축하고 라벨링하였다. 해당 데이터셋은 18편의 배드민턴 경기 영상에서 추출한 총 55,563개의 프레임으로 구성되어 있으며, 학습 및 테스트에 사용되었다. 또한, 네트워크 구조는 VGG16과 업샘플링 레이어 외에도 U-Net 아키텍처를 포함하고 있다. 마지막으로 GPU 메모리 사용량을 줄이기 위해 히트맵 레이어의 데이터 구조를 픽셀 단위의 원-핫 인코딩 3차원 배열에서 실수형 2차원 배열로 재설계하였다. 히트맵 표현 방식의 변화를 반영하기 위해 손실 함수도 기존의 RMSE 기반 함수에서 가중치가 부여된 교차 엔트로피 기반 함수로 재설계되었다. 종합적인 검증 결과, TrackNetV2는 학습 단계에서 정확도(accuracy) 96.3%, 정밀도(precision) 97.0%, 재현율(recall) 98.7%를 달성하였으며, 새로운 경기 영상에 대한 테스트에서는 각각 85.2%, 97.2%, 85.4%의 성능을 보였다. 3입력 3출력 버전의 TrackNetV2는 최대 31.84 FPS의 처리 속도를 기록하였다. 본 연구의 데이터셋 및 소스 코드는 다음 링크에서 공개되어 있다: https://nol.cs.nctu.edu.tw:234/open-source/TrackNetv2/.

TrackNetV2: 효율적인 샷신트 추적 네트워크 | 최신 연구 논문 | HyperAI초신경