HyperAIHyperAI

Command Palette

Search for a command to run...

Coarse-Fine-Netzwerke für die zeitliche Aktivitätsdetektion in Videos

Kumara Kahatapitiya Michael S. Ryoo

Zusammenfassung

In diesem Paper führen wir Coarse-Fine Networks ein, eine zweistromige Architektur, die von unterschiedlichen Abstraktionsebenen der zeitlichen Auflösung profitiert, um verbesserte Video-Repräsentationen für langfristige Bewegungen zu lernen. Traditionelle Video-Modelle verarbeiten Eingaben bei einer (oder wenigen) festen zeitlichen Auflösung, ohne dynamische Frame-Auswahl vorzunehmen. Wir argumentieren jedoch, dass die Verarbeitung mehrerer zeitlicher Auflösungen der Eingabe – und dies dynamisch durch das Lernen der Relevanz jedes einzelnen Frames – die Qualität der Video-Repräsentationen erheblich verbessern kann, insbesondere im Bereich der zeitlichen Aktivitätslokalisierung. Dazu schlagen wir (1) Grid Pool vor, eine gelernte zeitliche Downsampling-Schicht zur Extraktion grober Merkmale, sowie (2) Multi-stage Fusion, einen spatio-temporalen Aufmerksamkeitsmechanismus zur Fusion einer feinkörnigen Kontextinformation mit den groben Merkmalen. Wir zeigen, dass unsere Methode auf öffentlichen Datensätzen wie Charades die derzeitigen State-of-the-Art-Methoden bei der Aktionsdetektion deutlich übertrifft, wobei gleichzeitig der Rechenaufwand und der Speicherverbrauch signifikant reduziert werden. Der Quellcode ist unter https://github.com/kkahatapitiya/Coarse-Fine-Networks verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp