HyperAIHyperAI

Command Palette

Search for a command to run...

ZIEL: Anpassung von Bildmodellen für eine effiziente Video-Aktionserkennung

Taojiannan Yang Yi Zhu Yusheng Xie Aston Zhang Chen Chen Mu Li

Zusammenfassung

Neuere auf Vision-Transformern basierende Videomodelle folgen in der Regel dem Paradigma „Bildvortrainierung gefolgt von Feinabstimmung“ und haben auf mehreren Videobenchmarks erhebliche Erfolge erzielt. Dennoch kann die vollständige Feinabstimmung eines solchen Videomodells rechenintensiv und unnötig sein, insbesondere da vortrainierte Bildtransformer-Modelle eine herausragende Übertragbarkeit demonstriert haben. In dieser Arbeit stellen wir eine neuartige Methode vor, um vortrainierte Bildmodelle (Adapted Image Models, AIM) effizient für die Videoverstehensaufgabe zu adaptieren. Indem wir das vortrainierte Bildmodell fixieren und lediglich einige leichte Adapter hinzufügen, führen wir räumliche, zeitliche sowie gemeinsame Adaptation ein, um das Bildmodell schrittweise mit Fähigkeiten zur räumlich-zeitlichen Schlussfolgerung auszustatten. Wir zeigen, dass unser vorgeschlagenes AIM auf vier Benchmarks für Videotätigkeitserkennung konkurrenzfähige oder sogar überlegene Leistung erzielt, wobei deutlich weniger anpassbare Parameter erforderlich sind. Aufgrund seiner Einfachheit ist unsere Methode zudem allgemein anwendbar auf verschiedene vortrainierte Bildmodelle und hat das Potenzial, künftig leistungsfähigere Bild-Grundmodelle effizient zu nutzen. Die Projekt-Webseite finden Sie unter \url{https://adapt-image-models.github.io/}.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
ZIEL: Anpassung von Bildmodellen für eine effiziente Video-Aktionserkennung | Paper | HyperAI