Colar: Effektive und effiziente Online-Aktionserkennung durch Konsultation von Exemplaren

Die Online-Aktionserkennung hat in den letzten Jahren zunehmendes Forschungsinteresse geweckt. Aktuelle Arbeiten modellieren historische Abhängigkeiten und prognostizieren die Zukunft, um die Aktionsevolution innerhalb eines Videoabschnitts zu erfassen und die Erkennungsgenauigkeit zu verbessern. Dennoch ignoriert das bestehende Paradigma das Kategorie-Level-Modellierung und widmet der Effizienz nicht ausreichend Aufmerksamkeit. Bei Betrachtung einer Kategorie zeigen ihre repräsentativen Frames verschiedene Merkmale. Daher kann die Kategorie-Level-Modellierung ergänzende Anleitungen für die Modellierung zeitlicher Abhängigkeiten bieten. In dieser Arbeit wird ein effektiver Exemplar-Konsultationsmechanismus entwickelt, der zunächst die Ähnlichkeit zwischen einem Frame und exemplarischen Frames misst und dann auf Basis der Ähnlichkeitsgewichte exemplarische Features aggregiert. Dies ist auch ein effizienter Mechanismus, da sowohl die Ähnlichkeitsmessung als auch die Featureaggregation nur begrenzte Berechnungen erfordern. Basierend auf dem Exemplar-Konsultationsmechanismus können langfristige Abhängigkeiten durch Betrachtung historischer Frames als Exemplare erfasst werden, während die Kategorie-Level-Modellierung durch Betrachtung repräsentativer Frames einer Kategorie als Exemplare erreicht werden kann. Dank der Komplementarität der Kategorie-Level-Modellierung verwendet unsere Methode eine leichte Architektur, erreicht aber neue Höchstwerte auf drei Benchmarks. Darüber hinaus ermöglicht unsere Methode durch den Einsatz eines räumlich-zeitlichen Netzes zur Verarbeitung von Videoframes einen guten Kompromiss zwischen Effektivität und Effizienz. Der Quellcode ist unter https://github.com/VividLe/Online-Action-Detection verfügbar.