Aufmerksamkeit ist alles, was wir brauchen: Die Fokussierung auf objektorientierte Aufmerksamkeit für die Erkennung egozentrischer Aktivitäten

In dieser Arbeit schlagen wir ein von Anfang bis Ende trainierbares tiefes neuronales Netzwerkmodell für die Erkennung egozentrischer Aktivitäten vor. Unser Modell basiert auf der Beobachtung, dass egozentrische Aktivitäten stark durch die Objekte und ihre Positionen im Video charakterisiert sind. Auf dieser Grundlage entwickeln wir einen räumlichen Aufmerksamkeitsmechanismus, der es dem Netzwerk ermöglicht, sich auf Bereiche zu konzentrieren, die Objekte enthalten, die mit der betrachteten Aktivität korreliert sind. Wir lernen hochspezialisierte Aufmerksamkeitskarten für jedes Bild unter Verwendung klassenspezifischer Aktivierungen aus einem CNN (Convolutional Neural Network), das für die generische Bilderkennung vortrainiert wurde, und verwenden diese Karten zur raumzeitlichen Kodierung des Videos mit einem konvolutionellen LSTM (Long Short-Term Memory). Unser Modell wird in einer schwach überwachten Umgebung unter Verwendung roher videobasierter Aktivitätsklassenlabels trainiert. Trotzdem übertreffen unsere Ergebnisse auf standardisierten Benchmarks für egozentrische Aktivitäten die der momentan besten Methode, die starke Überwachung durch manuelle Segmentierung und Objektlokalisierung nutzt, um bis zu 6 Prozentpunkte in der Erkennungspräzision. Wir führen eine visuelle Analyse der vom Netzwerk generierten Aufmerksamkeitskarten durch, die zeigt, dass das Netzwerk erfolgreich die relevanten Objekte in den Videobildern identifiziert, was möglicherweise die starke Erkennungsleistung erklärt. Darüber hinaus diskutieren wir eine umfassende Ablationsanalyse bezüglich der Designentscheidungen.