HyperAIHyperAI

Command Palette

Search for a command to run...

BEVT: BERT-Vortrainierung von Video-Transformern

Rui Wang Dongdong Chen Zuxuan Wu Yinpeng Chen Xiyang Dai Mengchen Liu Yu-Gang Jiang Luowei Zhou Lu Yuan

Zusammenfassung

Diese Arbeit untersucht die BERT-Vorstudie von Video-Transformern. Es handelt sich um eine einfache, dennoch lohnenswerte Erweiterung, gegeben den jüngsten Erfolg der BERT-Vorstudie von Bild-Transformern. Wir stellen BEVT vor, das die Lernung von Video-Repräsentationen in die räumliche Repräsentationslernung und die Lernung zeitlicher Dynamik entkoppelt. Insbesondere führt BEVT zunächst eine maskierte Bildmodellierung auf Bilddaten durch und führt anschließend eine gemeinsame maskierte Bild- und maskierte Videomodellierung auf Videodaten durch. Diese Architektur wird durch zwei Beobachtungen motiviert: 1) Transformers, die auf Bilddatensätzen trainiert wurden, liefern gute räumliche Vorkenntnisse, die die Lernung von Video-Transformern erleichtern können, die ansonsten oft rechenintensiv sind, wenn sie von Grund auf trainiert werden; 2) Diskriminative Hinweise – also räumliche und zeitliche Informationen –, die zur korrekten Vorhersage erforderlich sind, variieren je nach Video aufgrund großer innerklassiger und zwischenklassiger Variationen. Wir führen umfangreiche Experimente an drei anspruchsvollen Video-Benchmarks durch, bei denen BEVT sehr vielversprechende Ergebnisse erzielt. Auf Kinetics 400, bei dem die Erkennung vor allem auf diskriminativen räumlichen Repräsentationen basiert, erreicht BEVT Ergebnisse, die mit starken überwachten Benchmarks vergleichbar sind. Auf Something-Something-V2 und Diving 48, die Videos enthalten, die auf zeitlichen Dynamiken basieren, übertrifft BEVT alle alternativen Benchmarks deutlich und erreicht mit einer Top-1-Accuracy von jeweils 71,4 % und 87,2 % den Stand der Technik. Der Quellcode wird unter \url{https://github.com/xyzforever/BEVT} zur Verfügung gestellt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp