Gruppenbewusste kontrastive Regression für die Bewertung der Aktionenqualität

Die Bewertung der Aktionen ist aufgrund der subtilen Unterschiede zwischen Videos und den großen Schwankungen in den Bewertungen herausfordernd. Die meisten bestehenden Ansätze lösen dieses Problem, indem sie eine Qualitätsbewertung aus einem einzelnen Video ableiten, wobei sie stark unter den großen inter-video-Bewertungsschwankungen leiden. In dieser Arbeit zeigen wir, dass die Beziehungen zwischen Videos wichtige Hinweise für eine genaue Aktionen-Qualitätsbewertung sowohl während des Trainings als auch der Inferenz liefern können. Insbesondere reformulieren wir das Problem der Aktionen-Qualitätsbewertung als Regressionsanalyse relativer Bewertungen im Vergleich zu einem anderen Video mit gemeinsamen Attributen (z.B. Kategorie und Schwierigkeit), anstatt unvergleichbare Bewertungen zu lernen. Auf Basis dieser Formulierung schlagen wir einen neuen Kontrastiven Regressionsrahmen (Contrastive Regression, CoRe) vor, um durch paarweise Vergleiche die relativen Bewertungen zu erlernen. Dies betont die Unterschiede zwischen Videos und führt die Modelle an, die entscheidenden Hinweise für die Bewertung zu lernen. Um die relative Information zwischen zwei Videos weiter auszunutzen, entwickeln wir einen gruppenbasierten Regressionsbaum, um die konventionelle Bewertungsregression in zwei einfachere Unterprobleme umzuwandeln: eine grob-zu-feine Klassifizierung und eine Regression in kleinen Intervallen. Um die Effektivität von CoRe zu demonstrieren, führen wir umfangreiche Experimente auf drei Haupt-AQA-Datensätzen durch, einschließlich AQA-7, MTL-AQA und JIGSAWS. Unser Ansatz übertrifft vorherige Methoden deutlich und etabliert neue Standarts auf allen drei Benchmarks.