SMART-Frame-Auswahl für die Aktionserkennung

Die Aktionserkennung ist rechenintensiv. In diesem Paper behandeln wir das Problem der Frame-Auswahl, um die Genauigkeit der Aktionserkennung zu verbessern. Insbesondere zeigen wir, dass die Auswahl guter Frames bereits im Bereich von kurzen, trimmten Videos die Leistung der Aktionserkennung steigern kann. Neuere Arbeiten haben erfolgreich die Frame-Auswahl für lange, untrimmte Videos eingesetzt, bei denen ein erheblicher Teil des Inhalts irrelevant ist und leicht weggelassen werden kann. In dieser Arbeit konzentrieren wir uns jedoch auf das etablierte, kürzere und trimmte Problem der Aktionserkennung. Wir argumentieren, dass eine gute Frame-Auswahl nicht nur die rechnerischen Kosten der Aktionserkennung reduzieren, sondern auch die Genauigkeit erhöhen kann, indem sie Frames ausschließt, die schwer zu klassifizieren sind. Im Gegensatz zu früheren Ansätzen schlagen wir eine Methode vor, die Frame nicht einzeln, sondern gemeinsam auswählt. Dies führt zu einer effizienteren Auswahl, bei der gute Frames besser über das Video verteilt sind – vergleichbar mit Fotos, die eine Geschichte erzählen. Wir bezeichnen die vorgeschlagene Frame-Auswahl als SMART und testen sie in Kombination mit verschiedenen Backbone-Architekturen sowie auf mehreren Benchmarks (Kinetics, Something-something, UCF101). Wir zeigen, dass die SMART-Frame-Auswahl im Vergleich zu anderen Strategien die Genauigkeit konsistent verbessert und gleichzeitig die rechnerischen Kosten um den Faktor 4 bis 10 reduziert. Darüber hinaus zeigen wir, dass unsere Auswahlstrategie, wenn die primäre Zielsetzung die Erreichung höchster Erkennungsleistung ist, gegenüber jüngsten state-of-the-art-Modellen und Frame-Auswahlstrategien auf verschiedenen Benchmarks (UCF101, HMDB51, FCVID und ActivityNet) Verbesserungen erzielt.