EZ-CLIP: Effiziente Zeroshot-Videos-Aktionserkennung

Kürzliche Fortschritte bei der groß angelegten Vortrainung von visuellen Sprachmodellen an gepaarten Bild-Text-Daten haben beeindruckende Generalisierungsfähigkeiten für Zero-Shot-Aufgaben gezeigt. Aufbauend auf diesem Erfolg wurden Bemühungen unternommen, diese bildbasierten visuellen Sprachmodelle wie CLIP für Videos anzupassen und ihre Zero-Shot-Fähigkeiten auf den Video-Bereich zu erweitern. Obwohl diese Anpassungen vielversprechende Ergebnisse gezeigt haben, entstehen sie mit einem erheblichen Rechenaufwand und haben Schwierigkeiten, die entscheidenden zeitlichen Aspekte, die dem Video-Bereich inhärent sind, effektiv zu modellieren. In dieser Studie stellen wir EZ-CLIP vor, eine einfache und effiziente Anpassung von CLIP, die diese Herausforderungen angeht. EZ-CLIP nutzt temporale visuelle Aufforderungen für eine nahtlose temporale Anpassung, ohne grundlegende Änderungen an der Kernarchitektur von CLIP vorzunehmen und gleichzeitig ihre bemerkenswerten Generalisierungsfähigkeiten zu bewahren. Darüber hinaus führen wir ein neues Lernziel ein, das die temporale visuelle Aufforderung leitet, sich auf die Erfassung von Bewegung zu konzentrieren, wodurch ihre Lernfähigkeiten aus Videodaten verbessert werden. Wir führten umfangreiche Experimente auf fünf verschiedenen Benchmark-Datensätzen durch und bewerteten EZ-CLIP gründlich für Zero-Shot-Lernen und die Erkennung von Basis- zu Novel-Videobewegungen sowie zeigten dessen Potenzial für Few-Shot-Generalisierung. Beeindruckenderweise kann EZ-CLIP mit lediglich 5,2 Millionen lernfähigen Parametern (im Gegensatz zu den 71,1 Millionen des bisher besten Modells) effizient auf einer einzelnen GPU trainiert werden und übertrifft bestehende Ansätze in mehreren Bewertungen.