Verbesserung der Aktionsqualitätseinschätzung durch gewichtete Aggregation

Die Bewertung der Aktionsqualität (AQA) zielt darauf ab, menschliche Aktionen automatisch anhand eines Videos dieser Aktion zu bewerten und ihnen eine Leistungsbewertung zuzuweisen. Die Mehrheit der Arbeiten in der bisherigen Literatur zur AQA teilt RGB-Videos in kurze Sequenzen auf, transformiert diese Sequenzen mithilfe von Convolutional 3D (C3D)-Netzwerken in höhere Darstellungen und aggregiert sie durch Durchschnittsbildung. Diese höheren Darstellungen werden verwendet, um die AQA durchzuführen. Wir stellen fest, dass die aktuelle Aggregierungstechnik auf Clip-Ebene, die den Durchschnitt bildet, nicht ausreichend ist, um die relative Bedeutung der Clip-Eigenschaften zu erfassen. In dieser Arbeit schlagen wir eine lernbasierte gewichtete Durchschnittsbildungstechnik vor. Mit dieser Technik kann eine bessere Leistung erzielt werden, ohne dabei zu viele Rechenressourcen zu opfern. Wir nennen diese Technik Gewichtungs-Entscheider (Weight-Decider, WD). Zudem experimentieren wir mit ResNets, um bessere Darstellungen für die Bewertung der Aktionsqualität zu lernen. Wir untersuchen die Auswirkungen der Tiefe und der Eingabesequenzgröße des konvolutionellen neuronalen Netzes auf die Qualität der Aktionsbewertungsvorhersagen. Unter Verwendung eines 34-Schichten-(2+1)D-ResNets mit der Fähigkeit, 32-Bild-Sequenzen zu verarbeiten und WD-Aggregation, erreichen wir einen neuen Stand der Technik in Form einer Spearman-Rangkorrelation von 0,9315 (einer Steigerung von 0,45 %) im MTL-AQA-Datensatz.