HyperAIHyperAI

Command Palette

Search for a command to run...

Erweiterung von Sprache-Bild-Vortrainierten Modellen für die allgemeine Videobewertung

Bolin Ni Houwen Peng Minghao Chen Songyang Zhang Gaofeng Meng Jianlong Fu Shiming Xiang Haibin Ling

Zusammenfassung

Kontrastive Sprache-Bild-Vortrainierung hat erheblichen Erfolg bei der Lernung gemeinsamer visueller-Textrepräsentationen aus webskaligen Daten gezeigt und eine bemerkenswerte „Zero-Shot“-Generalisierungsfähigkeit für verschiedene Bildaufgaben demonstriert. Allerdings bleibt die effektive Erweiterung solcher Sprache-Bild-Vortrainierungsansätze auf den Video-Bereich weiterhin eine offene Herausforderung. In dieser Arbeit präsentieren wir einen einfachen, aber wirksamen Ansatz, der bestehende Sprache-Bild-Modelle direkt für die Videoerkennung anpasst, anstatt ein neues Modell von Grund auf neu vorzutrainieren. Konkret schlagen wir eine cross-frame-Attention-Mechanismus vor, der die langfristigen Abhängigkeiten zwischen Bildern entlang der zeitlichen Dimension erfassen kann, indem er explizit Informationen zwischen den Frames austauscht. Dieses Modul ist leichtgewichtig und lässt sich nahtlos in bereits vortrainierte Sprache-Bild-Modelle integrieren. Darüber hinaus entwickeln wir eine video-spezifische Prompt-Strategie, die Inhaltsinformationen aus Videos nutzt, um diskriminative textuelle Prompts zu generieren. Umfangreiche Experimente zeigen, dass unser Ansatz wirksam ist und sich auf verschiedene Videoerkennungsszenarien verallgemeinern lässt. Insbesondere erzielt unser Ansatz unter vollständig überwachten Bedingungen eine Top-1-Accuracy von 87,1 % auf Kinetics-400, wobei er 12-mal weniger FLOPs benötigt als Swin-L und ViViT-H. In Zero-Shot-Experimenten übertrifft unser Ansatz die derzeitigen State-of-the-Art-Methoden um +7,6 % und +14,9 % hinsichtlich der Top-1-Accuracy unter zwei gängigen Protokollen. In Few-Shot-Szenarien erreicht unser Ansatz eine Verbesserung von +32,1 % und +23,1 % gegenüber den vorherigen Bestleistungen, selbst wenn die Anzahl an gelabelten Daten äußerst begrenzt ist. Code und Modelle sind unter https://aka.ms/X-CLIP verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Erweiterung von Sprache-Bild-Vortrainierten Modellen für die allgemeine Videobewertung | Paper | HyperAI