HalluciNet-ing räumlich-zeitliche Repräsentationen mit einem 2D-CNN

Spatio-temporale Darstellungen, die mit Hilfe von 3D-Faltungsneuronalen Netzen (CNN) gelernt werden, werden derzeit in den fortschrittlichsten Ansätzen für aktionsbezogene Aufgaben eingesetzt. Allerdings sind 3D-CNN im Vergleich zu einfacheren 2D-CNN-Architekturen bekannt für ihren hohen Speicher- und Rechenressourcenverbrauch. Wir schlagen vor, spatio-temporale Darstellungen von einem 3D-CNN-Lehrer mit einem 2D-CNN-Schüler zu erzeugen. Durch die Anforderung, dass das 2D-CNN die Zukunft vorhersagen und kommende Aktivitäten intuitiv erkennen soll, wird es angeregt, ein tieferes Verständnis von Aktionen und deren Entwicklung zu gewinnen. Die Erzeugungsaufgabe wird als Nebenaufgabe behandelt, die in einem Multitask-Lernsetting mit jeder anderen aktionsbezogenen Aufgabe verwendet werden kann. Eine umfassende experimentelle Auswertung zeigt, dass die Erzeugungsaufgabe tatsächlich die Leistung bei Aufgaben der Aktionserkennung, der Bewertung der Aktionqualität und der Erkennung dynamischer Szenen verbessert. Aus praktischer Sicht ermöglicht es das Erzeugen spatio-temporaler Darstellungen ohne tatsächliche 3D-CNN-Beteiligung eine Bereitstellung in ressourcenbeschränkten Szenarien, wie beispielsweise bei begrenzter Rechenleistung und/oder niedriger Bandbreite. Der Quellcode ist hier verfügbar: https://github.com/ParitoshParmar/HalluciNet.