Coarse-Fine-Netzwerke für die zeitliche Aktivitätsdetektion in Videos

In diesem Paper führen wir Coarse-Fine Networks ein, eine zweistromige Architektur, die von unterschiedlichen Abstraktionsebenen der zeitlichen Auflösung profitiert, um verbesserte Video-Repräsentationen für langfristige Bewegungen zu lernen. Traditionelle Video-Modelle verarbeiten Eingaben bei einer (oder wenigen) festen zeitlichen Auflösung, ohne dynamische Frame-Auswahl vorzunehmen. Wir argumentieren jedoch, dass die Verarbeitung mehrerer zeitlicher Auflösungen der Eingabe – und dies dynamisch durch das Lernen der Relevanz jedes einzelnen Frames – die Qualität der Video-Repräsentationen erheblich verbessern kann, insbesondere im Bereich der zeitlichen Aktivitätslokalisierung. Dazu schlagen wir (1) Grid Pool vor, eine gelernte zeitliche Downsampling-Schicht zur Extraktion grober Merkmale, sowie (2) Multi-stage Fusion, einen spatio-temporalen Aufmerksamkeitsmechanismus zur Fusion einer feinkörnigen Kontextinformation mit den groben Merkmalen. Wir zeigen, dass unsere Methode auf öffentlichen Datensätzen wie Charades die derzeitigen State-of-the-Art-Methoden bei der Aktionsdetektion deutlich übertrifft, wobei gleichzeitig der Rechenaufwand und der Speicherverbrauch signifikant reduziert werden. Der Quellcode ist unter https://github.com/kkahatapitiya/Coarse-Fine-Networks verfügbar.