HyperAIHyperAI
vor 2 Monaten

Aufmerksamkeitsdestillierung für das Lernen von Videodarstellungen

Miao Liu; Xin Chen; Yun Zhang; Yin Li; James M. Rehg
Aufmerksamkeitsdestillierung für das Lernen von Videodarstellungen
Abstract

Wir befassen uns mit der anspruchsvollen Aufgabe, Bewegungsrepräsentationen unter Verwendung tiefer Modelle für die Videobewertung zu lernen. Hierzu nutzen wir Aufmerksamkeitsmodule, die lernen, Regionen im Video hervorzuheben und Merkmale für die Erkennung zusammenzufassen. Insbesondere schlagen wir vor, Ausgabeaufmerksamkeitskarten als Mittel zu verwenden, um die gelernte Repräsentation von einem Bewegungs- (Flow-) Netzwerk zu einem RGB-Netzwerk zu transferieren. Wir untersuchen das Design von Aufmerksamkeitsmodulen systematisch und entwickeln eine neuartige Methode zur Aufmerksamkeitsdestillation. Unsere Methode wird anhand wichtiger Aktionen-Benchmarks evaluiert und verbessert die Leistung des Baseline-RGB-Netzwerks erheblich. Darüber hinaus zeigen wir, dass unsere Aufmerksamkeitskarten in der Lage sind, Bewegungshinweise bei der Lernprozesse auszunutzen, um den Standort von Aktionen in Videobildern zu identifizieren. Wir glauben, dass unsere Methode einen Schritt in Richtung der Lernprozesse von bewegungsbewussten Repräsentationen in tiefen Modellen darstellt. Unsere Projektseite ist unter https://aptx4869lm.github.io/AttentionDistillation/ verfügbar.