HyperAIHyperAI

Command Palette

Search for a command to run...

Video Swin Transformer

Ze Liu Jia Ning Yue Cao Yixuan Wei Zheng Zhang Stephen Lin Han Hu

Zusammenfassung

Die Vision-Community erlebt einen Paradigmenwechsel von CNNs hin zu Transformers, wobei reine Transformer-Architekturen die höchste Genauigkeit auf den wichtigsten Videoerkennungsbenchmarks erzielt haben. Alle dieser Video-Modelle basieren auf Transformer-Schichten, die Patche über räumliche und zeitliche Dimensionen global verknüpfen. In diesem Paper setzen wir stattdessen auf eine induktive Voreingenommenheit der Lokalität in Video-Transformern, was eine bessere Abwägung zwischen Geschwindigkeit und Genauigkeit im Vergleich zu vorherigen Ansätzen ermöglicht, die selbst bei räumlich-zeitlicher Faktorisierung die Selbst-Attention global berechnen. Die Lokalität der vorgeschlagenen Video-Architektur wird erreicht, indem die Swin-Transformer-Architektur, ursprünglich für den Bildbereich entwickelt, angepasst wird, während gleichzeitig die Stärke vortrainierter Bildmodelle genutzt wird. Unser Ansatz erzielt state-of-the-art Genauigkeit auf einer Vielzahl von Videoerkennungsbenchmarks, darunter Aktionserkennung (84,9 % Top-1-Accuracy auf Kinetics-400 und 86,1 % Top-1-Accuracy auf Kinetics-600 mit etwa 20-fach weniger Vortrainingsdaten und etwa 3-fach kleinerer Modellgröße) sowie zeitliche Modellierung (69,6 % Top-1-Accuracy auf Something-Something v2). Der Quellcode und die Modelle werden öffentlich unter https://github.com/SwinTransformer/Video-Swin-Transformer verfügbar gemacht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp