HyperAIHyperAI
vor 12 Tagen

TrackNetV2: Effizientes Shuttlecock-Verfolgungsnetzwerk

{Tsì-Uí İk, Ho-Yi Chung, Dung-Ru Yu, Tzu-Han Hsu, Shao-Ping Chuang, Yu-Ching Lin, Nien-En Sun}
Abstract

TrackNet, ein tiefes Lernnetzwerk, wurde vorgeschlagen, um hochgeschwindige und winzige Objekte wie Tennisbälle und Federbälle aus Videos zu verfolgen. Um Probleme niedriger Bildqualität – beispielsweise Unschärfe, Nachbilder und kurzfristige Verdeckung – zu bewältigen, werden mehrere aufeinanderfolgende Bilder gemeinsam als Eingabe verwendet, um ein fliegendes Objekt zu detektieren. In dieser Arbeit wird TrackNetV2 vorgestellt, um die Leistungsfähigkeit von TrackNet auf verschiedenen Ebenen zu verbessern, insbesondere hinsichtlich Verarbeitungsgeschwindigkeit, Vorhersagegenauigkeit und Nutzung des GPU-Speichers. Zunächst wird die Verarbeitungsgeschwindigkeit von 2,6 FPS auf 31,8 FPS erhöht. Dieser Leistungsfortschritt wird erreicht, indem die Eingabebildgröße verkleinert und das Netzwerkarchitektur von einer Multiple-In-Single-Out-(MISO)-Struktur auf eine Multiple-In-Multiple-Out-(MIMO)-Struktur umgestaltet wird. Um die Vorhersagegenauigkeit weiter zu steigern, wurde ein umfassender Datensatz aus diversen Badminton-Spielfilmen gesammelt und annotiert, um das Modell zu trainieren und zu testen. Der Datensatz umfasst 55.563 Frames aus 18 Badminton-Spielfilmen. Zudem basieren die Netzwerkmechanismen nicht nur auf VGG16 und Upsampling-Schichten, sondern auch auf der U-Net-Architektur. Schließlich wird der GPU-Speicherverbrauch reduziert, indem die Datenstruktur der Heatmap-Schicht von einem pixelbasierten One-Hot-Codierung-3D-Array auf ein reellwertiges 2D-Array umgestaltet wird. Um die Veränderung der Heatmap-Darstellung angemessen zu erfassen, wird die Verlustfunktion von einer RMSE-basierten auf eine gewichtete Kreuzentropie-basierte Funktion umgestellt. Eine umfassende Validierung zeigt, dass die Genauigkeit, Präzision und Recall von TrackNetV2 im Trainingsphase jeweils 96,3 %, 97,0 % und 98,7 % betragen, während sie im Test auf einem brandneuen Match 85,2 %, 97,2 % und 85,4 % erreichen. Die Verarbeitungsgeschwindigkeit der TrackNetV2-Version mit drei Eingaben und drei Ausgaben erreicht 31,84 FPS. Der Datensatz und der Quellcode dieser Arbeit sind unter https://nol.cs.nctu.edu.tw:234/open-source/TrackNetv2/ verfügbar.

TrackNetV2: Effizientes Shuttlecock-Verfolgungsnetzwerk | Neueste Forschungsarbeiten | HyperAI