HyperAIHyperAI
vor 2 Monaten

Aufmerksamkeitspooling für Aktionserkennung

Rohit Girdhar; Deva Ramanan
Aufmerksamkeitspooling für Aktionserkennung
Abstract

Wir stellen ein einfaches, aber überraschend leistungsfähiges Modell vor, das die Aufmerksamkeit in Aufgaben der Aktionserkennung und des menschlichen Objektinterakts einbezieht. Das von uns vorgeschlagene Aufmerksamkeitsmodul kann mit oder ohne zusätzliche Überwachung trainiert werden und führt zu einer erheblichen Steigerung der Genauigkeit, während es die Netzwerkgröße und den Rechenaufwand nahezu unverändert lässt. Es bringt signifikante Verbesserungen im Vergleich zur aktuellen Basisarchitektur auf drei Standard-Benchmarks für Aktionserkennung sowohl in Bildern als auch in Videos und etabliert einen neuen Stand der Technik im MPII-Datensatz mit einer relativen Verbesserung von 12,5 %. Wir führen außerdem eine umfassende Analyse unseres Aufmerksamkeitsmoduls sowohl empirisch als auch analytisch durch. Im analytischen Teil führen wir eine neue Herleitung von bottom-up- und top-down-Aufmerksamkeit als Rangniedrigungsapproximationen bilinearer Pooling-Methoden ein (die typischerweise für feinkörnige Klassifizierung verwendet werden). Aus dieser Perspektive legt unsere Aufmerksamkeitsformulierung eine neue Charakterisierung der Aktionserkennung als Problem der feinkörnigen Erkennung nahe.

Aufmerksamkeitspooling für Aktionserkennung | Neueste Forschungsarbeiten | HyperAI