HyperAIHyperAI
vor 2 Monaten

SCSampler: Abtasten von salienten Abschnitten aus Videos für effiziente Aktionserkennung

Bruno Korbar; Du Tran; Lorenzo Torresani
SCSampler: Abtasten von salienten Abschnitten aus Videos für effiziente Aktionserkennung
Abstract

Während viele Aktionserkennung-Datensätze aus Sammlungen kurzer, zugeschnittener Videos bestehen, die jeweils eine relevante Aktion enthalten, weisen Videos in der realen Welt (z.B. auf YouTube) sehr unterschiedliche Eigenschaften auf: Sie sind oft mehrere Minuten lang, wobei kurze relevante Sequenzen häufig mit Abschnitten von erheblicher Dauer, die wenig Veränderung zeigen, abwechseln. Die Anwendung eines dicht verteilten Aktionserkennungssystems auf jede zeitliche Sequenz innerhalb solcher Videos ist unerschwinglich teuer. Darüber hinaus zeigen unsere Experimente, dass dies zu suboptimaler Erkennungsgenauigkeit führt, da informierende Vorhersagen aus relevanten Sequenzen durch sinnlose Klassifikationsergebnisse über lange uninformative Videoabschnitte übertroffen werden. In dieser Arbeit stellen wir ein leichtgewichtiges "Clip-Sampling"-Modell vor, das effizient die wichtigsten zeitlichen Sequenzen innerhalb eines langen Videos identifizieren kann. Wir demonstrieren, dass der Rechenaufwand der Aktionserkennung bei ungeschnittenen Videos durch die Anwendung des Erkennungsverfahrens nur auf diese wichtigsten Sequenzen drastisch reduziert werden kann. Zudem zeigen wir, dass dies im Vergleich zur Analyse aller oder zufällig/gleichmäßig ausgewählten Sequenzen erhebliche Genauigkeitsverbesserungen bringt. Bei Sports1M steigert unser Clip-Sampling-Verfahren die Genauigkeit eines bereits standesgemäßen Aktionsklassifikators um 7 % und verringert dessen Rechenaufwand um mehr als 15-fach.