vor 2 Monaten

Baseline-Methode für die Sportaufgabe von MediaEval 2022 mit 3D-CNNs unter Verwendung von Aufmerksamkeitsmechanismen

Pierre-Etienne Martin

Abstract

Dieses Papier stellt die Baselinemethode vor, die für den Teil der Sports Video-Aufgabe des MediaEval 2022 Benchmarks vorgeschlagen wurde. Diese Aufgabe umfasst zwei Unter-Aufgaben: die Klassifizierung von Schlägen aus zugeschnittenen Videos und die Detektion von Schlägen aus unzugeschnittenen Videos. Die vorgeschlagene Baseline behandelt beide Unter-Aufgaben. Wir schlagen zwei Arten von 3D-CNN-Architekturen vor, um die beiden Unter-Aufgaben zu lösen. Beide 3D-CNNs verwenden räumlich-zeitliche Faltungen und Aufmerksamkeitsmechanismen. Die Architekturen und der Trainingsprozess sind auf die jeweilige Unter-Aufgabe abgestimmt. Diese Baselinemethode wird öffentlich online geteilt, um den Teilnehmern bei ihren Untersuchungen zu helfen und bestimmte Aspekte der Aufgabe wie Videoverarbeitung, Trainingsmethode, Evaluierung und Abgabeprozess zu erleichtern. Die Baselinemethode erreicht mit unserem v2-Modell eine Genauigkeit von 86,4 % für die Klassifizierungsunter-Aufgabe. Für die Detektionsunter-Aufgabe erreicht die Baseline mit unserem v1-Modell einen mAP-Wert von 0,131 und einen IoU-Wert von 0,515.注释：- "MediaEval" ist ein etablierter Begriff im Bereich der Medienbewertung und wird daher nicht übersetzt.- "3D-CNN" (3D Convolutional Neural Network) wird als "3D-CNN" beibehalten, da es sich um einen technischen Fachbegriff handelt.- "Spatio-temporal convolutions" wird als "räumlich-zeitliche Faltungen" übersetzt.- "attention mechanisms" wird als "Aufmerksamkeitsmechanismen" übersetzt.- "mAP" (mean Average Precision) und "IoU" (Intersection over Union) werden ebenfalls beibehalten, da es sich um gängige Metriken in der Bildverarbeitung handelt.