Feinabstufung der Video-Kategorisierung mit Aufmerksamkeitsmechanismus zur Redundanzreduzierung

Für feingranulare Kategorisierungsaufgaben können Videos eine bessere Quelle als statische Bilder sein, da sie eine höhere Wahrscheinlichkeit enthalten, diskriminierende Muster zu beinhalten. Dennoch können Videosequenzen auch viele redundante und irrelevante Frames enthalten. Die Lokalisierung von kritischen Informationen von Interesse ist eine herausfordernde Aufgabe. In dieser Arbeit schlagen wir eine neue Netzstruktur vor, die als Redundanzreduzierungs-Aufmerksamkeit (Redundancy Reduction Attention, RRA) bekannt ist. Diese lernt, sich auf mehrere diskriminierende Muster zu konzentrieren, indem sie redundante Merkmalskanäle unterdrückt. Genauer gesagt fasst es das Video zunächst zusammen, indem es alle Merkmalsvektoren in den Merkmalskarten ausgewählter Frames mit einer räumlich-zeitlichen Soft-Aufmerksamkeit gewichtete Summen bildet. Anschließend wird durch eine gelernte nichtlineare Transformation vorhergesagt, welche Kanäle unterdrückt oder verstärkt werden sollen, basierend auf dieser Zusammenfassung. Die Unterdrückung wird erreicht, indem die Merkmalskarten moduliert und schwache Aktivierungen eliminiert werden. Die aktualisierten Merkmalskarten werden dann in der nächsten Iteration verwendet. Schließlich wird das Video basierend auf mehreren Zusammenfassungen klassifiziert. Das vorgeschlagene Verfahren erzielt hervorragende Leistungen in mehreren Videoklassifikationsdatensätzen. Darüber hinaus haben wir zwei große Videodatensätze für zukünftige Forschungen zur feingranularen Videokategorisierung erstellt: YouTube-Vögel (YouTube-Birds) und YouTube-Autos (YouTube-Cars). Die Datensätze sind unter http://www.cs.umd.edu/~chenzhu/fgvc verfügbar.