HyperAIHyperAI

Command Palette

Search for a command to run...

Selbstüberwachte multimodale universelle Netze

Jean-Baptiste Alayrac extsuperscript1 extsuperscript* Adrià Recasens extsuperscript1 extsuperscript* Rosalia Schneider extsuperscript1 extsuperscript* Relja Arandjelović extsuperscript1 extsuperscript* Jason Ramapuram extsuperscript2,3 extsuperscript† Jeffrey De Fauw extsuperscript1 Lucas Smaira extsuperscript1 Sander Dieleman extsuperscript1 Andrew Zisserman extsuperscript1,4

Zusammenfassung

Videos sind eine reiche Quelle für multimodale Überwachung. In dieser Arbeit lernen wir Repräsentationen durch Selbstüberwachung, indem wir drei Modalitäten nutzen, die natürlicherweise in Videos vorhanden sind: visuelle, auditive und sprachliche Ströme. Zu diesem Zweck führen wir den Begriff eines multimodalen universellen Netzes ein – ein Netzwerk, das mehrere Modalitäten verarbeiten kann und dessen Repräsentationen Downstream-Aufgaben in mehreren Modalitäten ermöglichen. Insbesondere untersuchen wir, wie man die Modalitäten am besten kombiniert, um feingranulare Repräsentationen der visuellen und auditiven Modalitäten aufrechtzuerhalten, während gleichzeitig Text in eine gemeinsame Einbettung integriert wird. Angetrieben von Vielseitigkeit führen wir auch einen neuen Deflationsprozess ein, sodass die Netzwerke problemlos auf visuelle Daten in Form von Videos oder statischen Bildern angewendet werden können. Wir zeigen, wie solche Netzwerke, die auf großen Sammlungen unannotierter Videodaten trainiert wurden, bei Video-, Video-Text-, Bild- und Audioaufgaben eingesetzt werden können. Mit diesen Repräsentationen erzielen wir den aktuellen Stand der Technik bei mehreren anspruchsvollen Benchmarks einschließlich UCF101, HMDB51, Kinetics600, AudioSet und ESC-50 im Vergleich zu früherer selbstüberwachender Arbeit. Unsere Modelle sind öffentlich verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp