Auto-Encoding Scoreverteilungsregression für die Bewertung der Aktionen Qualität

Die Bewertung der Aktionen in Videos (Action Quality Assessment, AQA) ist eine anspruchsvolle visuelle Aufgabe, da die Beziehung zwischen Videos und Aktionsscores schwierig zu modellieren ist. Daher wurde AQA in der Literatur weitgehend untersucht. Traditionell wird AQA als Regressionsproblem behandelt, um die zugrundeliegenden Abbildungen zwischen Videos und Aktionsscores zu lernen. Allerdings ignorierten bisherige Methoden die Datenunsicherheit in AQA-Datensätzen. Um aleatorische Unsicherheit zu berücksichtigen, entwickeln wir ein weiteres Plug-and-Play-Modul, den Distribution Auto-Encoder (DAE). Genauer gesagt kodiert es Videos in Verteilungen und verwendet das Reparametrisierungstrick aus variationsautoencodern (VAE), um Scores zu sampeln, was eine genauere Abbildung zwischen Videos und Scores herstellt. Gleichzeitig wird ein Likelihood-Verlust verwendet, um die Unsicherheitsparameter zu lernen. Wir integrieren unseren DAE-Ansatz in MUSDL und CoRe. Experimentelle Ergebnisse auf öffentlichen Datensätzen zeigen, dass unsere Methode den aktuellen Stand der Technik auf den Datensätzen AQA-7, MTL-AQA und JIGSAWS erreicht. Unser Code ist unter https://github.com/InfoX-SEU/DAE-AQA verfügbar.