Hybrides dynamisch-statisches kontextsensibles Aufmerksamkeitsnetzwerk für die Aktionserkennung in langen Videos

Das Ziel der Aktionsqualitätseinschätzung ist es, Sportvideos zu bewerten.Allerdings konzentrieren sich die meisten existierenden Arbeiten ausschließlich auf dynamische Videoinformationen (d.h., Bewegungsinformationen), während sie die spezifischen Haltungen, die ein Athlet in einem Video ausführt, vernachlässigen. Diese sind jedoch für die Aktionsbewertung in langen Videos von großer Bedeutung.In dieser Arbeit stellen wir ACTION-NET vor, ein neuartiges hybrides dynamisch-statistisches Kontextbewusstes Aufmerksamkeitsnetzwerk (hybrid dynAmic-static Context-aware attenTION NETwork) zur Aktionsbewertung in langen Videos. Um diskriminativere Darstellungen für Videos zu erlernen, befassen wir uns nicht nur mit den dynamischen Videoinformationen, sondern legen auch den Schwerpunkt auf die statischen Haltungen der erkannten Athleten in bestimmten Bildern. Diese repräsentieren die Aktionsqualität zu bestimmten Zeitpunkten und werden unterstützt durch das vorgeschlagene hybride dynamisch-statistische Architektur.Darüber hinaus nutzen wir ein kontextsensitives Aufmerksamkeitsmodul, das aus einer zeitlichen instanzbasierten Graphikfaltungsschicht (Graph Convolutional Network Unit) und einem Aufmerksamkeitsblock (Attention Unit) für beide Ströme besteht, um robustere Stromfeatures zu extrahieren. Dabei dient die erstgenannte Komponente dazu, die Beziehungen zwischen Instanzen zu erforschen, während die letztere jedem Instanz eine angemessene Gewichtung zuweist.Schließlich kombinieren wir die Features beider Ströme, um den endgültigen Videobewertungswert unter Berücksichtigung der von Experten gegebenen Referenzwerte zu berechnen.Zusätzlich haben wir einen neuen Rhythmic Gymnastics Datensatz gesammelt und annotiert, der Videos von vier verschiedenen Turnübungen enthält. Dieser Datensatz dient zur Bewertung der Aktionsqualitätseinschätzung in langen Videos.Ausführliche experimentelle Ergebnisse bestätigen die Effektivität unseres vorgeschlagenen Verfahrens, das vergleichbare Ansätze übertrifft. Der Code und der Datensatz sind unter \url{https://github.com/lingan1996/ACTION-NET} verfügbar.