HyperAIHyperAI

Command Palette

Search for a command to run...

Großmaßstäbliche schwach überwachte Vortrainierung für die Aktionserkennung in Videos

Deepti Ghadiyaram Matt Feiszli Du Tran Xuetong Yan Heng Wang Dhruv Mahajan

Zusammenfassung

Aktuelle voll überwachte Video-Datensätze bestehen nur aus einigen Hunderttausend Videos und weniger als tausend domänenspezifischen Labels. Dies behindert den Fortschritt in Richtung fortschrittlicher Video-Architekturen. In dieser Arbeit wird eine umfassende Studie zur Verwendung großer Mengen an Web-Videos für das Vor-Training von Videomodellen im Bereich der Aktionserkennung präsentiert. Unser wichtigstes empirisches Ergebnis ist, dass das Vor-Training in sehr großem Umfang (über 65 Millionen Videos), trotz störender sozialer Medien-Videos und -Hashtags, den Stand der Technik auf drei anspruchsvollen öffentlichen Aktionserkennungs-Datensätzen erheblich verbessert.Darüber hinaus untersuchen wir drei Fragen bei der Erstellung schwach überwachter Videoaktion-Datensätze. Erstens, da Aktionen mit Objekten interagieren, wie sollte man einen Verb-Objekt-Vor-Trainingslabelsraum konstruieren, um das Transfer-Lernen am besten zu fördern? Zweitens, rahmenbasierte Modelle erzielen bei der Aktionserkennung ziemlich gute Ergebnisse; reicht es aus, gute Bildmerkmale vorzutrainieren, oder hat das Vor-Training von räumlich-zeitlichen Merkmalen für optimales Transfer-Lernen einen Mehrwert? Schließlich sind Aktionen in langen Videos im Allgemeinen weniger gut lokalisiert als in kurzen Videos; da Aktionen auf Videoebene beschriftet werden, wie sollte man unter einem festgelegten Budget an Anzahl oder Minuten von Videos die besten Videoclips auswählen?Technische Begriffe:- fully-supervised: voll überwacht- pre-training: Vor-Training- action recognition: Aktionserkennung- verb-object pre-training label space: Verb-Objekt-Vor-Trainingslabelsraum- frame-based models: rahmenbasierte Modelle- spatio-temporal features: räumlich-zeitliche Merkmale- transfer learning: Transfer-Lernen


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Großmaßstäbliche schwach überwachte Vortrainierung für die Aktionserkennung in Videos | Paper | HyperAI