HyperAIHyperAI

Command Palette

Search for a command to run...

Erweitern Sie Ihre Perspektiven für das selbstüberwachte Video-Lernen

Zusammenfassung

Die meisten erfolgreichen selbstüberwachten Lernmethoden werden trainiert, die Darstellungen von zwei unabhängigen Ansichten der Daten auszurichten. Die neuesten Methoden im Videobereich sind von Bildtechniken inspiriert, bei denen diese beiden Ansichten durch Zuschneiden und Erweitern des resultierenden Ausschnitts ähnlich extrahiert werden. Allerdings fehlt diesen Methoden ein entscheidendes Element im Video-Bereich: die Zeit. Wir stellen BraVe vor, einen Rahmen für das selbstüberwachte Lernen in Videos. In BraVe hat eine der Ansichten Zugang zu einem engen zeitlichen Fenster des Videos, während die andere Ansicht umfassenden Zugang zum Videoinhalt hat. Unsere Modelle lernen, von der engen Ansicht auf den allgemeinen Inhalt des Videos zu verallgemeinern. Darüber hinaus verarbeitet BraVe die Ansichten mit unterschiedlichen Backbones, was es ermöglicht, alternative Erweiterungen oder Modalitäten in die breite Ansicht einzubinden, wie z.B. optischen Fluss, zufällig konvolvierte RGB-Bilder, Audio oder deren Kombinationen (optical flow, randomly convolved RGB frames). Wir zeigen, dass BraVe auf Standard-Benchmarks für Videoklassifikation und Audioklassifikation wie UCF101, HMDB51, Kinetics, ESC-50 und AudioSet erstklassige Ergebnisse im Bereich des selbstüberwachten Repräsentationslernens erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Erweitern Sie Ihre Perspektiven für das selbstüberwachte Video-Lernen | Paper | HyperAI