Dynamische Abtastnetzwerke für effiziente Aktionserkennung in Videos

Die bestehenden Methoden zur Aktionserkennung basieren hauptsächlich auf clip-level Klassifikatoren wie zweistromigen CNNs oder 3D-CNNs, die aus zufällig ausgewählten Clips trainiert und während der Testphase auf dicht abgetasteten Clips angewendet werden. Dieser etablierte Ansatz könnte jedoch suboptimal für das Training von Klassifikatoren sein und erfordert bei der praktischen Anwendung erhebliche Rechenleistung. Um diese Probleme anzugehen, schlagen wir einen neuen Ansatz für die Aktionserkennung in Videos vor, genannt {\em Dynamic Sampling Networks} (DSN), indem wir ein dynamisches Abtastmodul entwerfen, um die Diskriminativkraft der gelernten clip-level Klassifikatoren zu verbessern und gleichzeitig die Inferenz-Effizienz im Testphase zu erhöhen. Konkret besteht DSN aus einem Abtastmodul und einem Klassifikationsmodul, deren jeweiliges Ziel darin besteht, eine Abtaststrategie zu lernen, um in Echtzeit diejenigen Clips auszuwählen, die beibehalten und zum Training verwendet werden, sowie einen clip-level Klassifikator zu trainieren, der die Aktionserkennung basierend auf den ausgewählten Clips durchführt. Insbesondere lernen wir für einen Eingabevideo ein Beobachtungsnetzwerk in einem assoziativen Verstärkungslern-Setting, um die Belohnung der ausgewählten Clips zu maximieren, wenn diese korrekt klassifiziert werden. Wir führen umfangreiche Experimente durch, um verschiedene Aspekte des DSN-Frameworks an vier Datensätzen zur Aktionserkennung zu untersuchen: UCF101, HMDB51, THUMOS14 und ActivityNet v1.3. Die experimentellen Ergebnisse zeigen, dass DSN die Inferenz-Effizienz erheblich verbessern kann, indem lediglich weniger als die Hälfte der Clips verwendet wird, wobei dennoch eine leicht bessere oder vergleichbare Erkennungsgenauigkeit im Vergleich zu aktuellen State-of-the-Art-Verfahren erreicht wird.