Halluzinierende IDT Deskriptoren und I3D Optischer Flussmerkmale für Aktionserkennung mit CNNs

In dieser Arbeit beleben wir die Verwendung traditioneller, manuell gestalteter Video-Darstellungen für die Aktionserkennung und verleihen diesen Techniken durch einen CNN-basierten Halluzinationschritt neues Leben. Trotz der Verwendung von RGB- und Optischen-Fluss-Bildern prosperiert das I3D-Modell (unter anderem) durch die Kombination seines Outputs mit den Verbesserten Dichten Trajektorien (IDT) und den daraus extrahierten niedrigstufigen Videodeskriptoren, die mittels Bag-of-Words (BoW) und Fisher-Vektoren (FV) kodiert werden. Eine solche Fusion von CNNs und manuell gestalteten Darstellungen ist aufwendig, da sie Vorverarbeitung, Deskriptorextraktion, Kodierung und Parameteranpassung erfordert. Daher schlagen wir ein end-to-end trainierbares Netzwerk vor, das Ströme besitzt, welche während des Trainingsprozesses die IDT-basierten BoW/FV-Darstellungen lernen und einfach in das I3D-Modell integriert werden können. Insbesondere nimmt jeder Stream die I3D-Featuremaps vor der letzten 1D-Faltungsschicht entgegen und lernt, diese Maps in BoW/FV-Darstellungen zu „übersetzen“. Dadurch kann unser Modell bei der Testphase halluzinierte und synthetisierte BoW/FV-Darstellungen verwenden. Wir zeigen, dass sogar die Features des gesamten I3D-Optischen-Fluss-Streams halluziniert werden können, was den Prozess vereinfacht. Unser Modell spart 20-55 Stunden Rechenzeit und erzielt Stand-of-the-Art-Ergebnisse auf vier öffentlich zugänglichen Datensätzen.