Lernen, Informationen für die Online-Aktionserkennung zu diskriminieren

Bei der Online-Aktionserkennung aus einem Livestream zielt man darauf ab, aktuelle Aktionen in Echtzeit zu identifizieren. Für diese Aufgabe verwenden bisherige Methoden rekurrente Netze, um die zeitliche Abfolge der aktuellen Aktionsszenen zu modellieren. Diese Ansätze ignorieren jedoch, dass eine Eingabebildsequenz neben dem gewünschten Aktionsszenario auch Hintergrund und irrelevante Aktionen enthält. In dieser Arbeit schlagen wir eine neuartige rekurrente Einheit vor, die explizit Informationen, die für eine laufende Aktion relevant sind, von anderen Informationen unterscheidet. Unsere Einheit, die als Information Discrimination Unit (IDU) bezeichnet wird, entscheidet auf Basis der Relevanz für die aktuelle Aktion, ob sie Eingangsinformationen akkumuliert. Dies ermöglicht es unserem rekurrenten Netzwerk mit IDU, eine diskriminativere Darstellung zu lernen, um laufende Aktionen besser zu identifizieren. In Experimenten mit zwei Benchmark-Datensätzen, TVSeries und THUMOS-14, übertrifft die vorgeschlagene Methode die besten bisherigen Verfahren deutlich. Zudem zeigen wir durch umfassende Ausfallstudien (ablation studies) die Effektivität unserer rekurrenten Einheit.