HyperAIHyperAI
vor 2 Monaten

Großmaßstäbliche schwach überwachte Vortrainierung für die Aktionserkennung in Videos

Ghadiyaram, Deepti ; Feiszli, Matt ; Tran, Du ; Yan, Xueting ; Wang, Heng ; Mahajan, Dhruv
Großmaßstäbliche schwach überwachte Vortrainierung für die Aktionserkennung in Videos
Abstract

Aktuelle voll überwachte Video-Datensätze bestehen nur aus einigen Hunderttausend Videos und weniger als tausend domänenspezifischen Labels. Dies behindert den Fortschritt in Richtung fortschrittlicher Video-Architekturen. In dieser Arbeit wird eine umfassende Studie zur Verwendung großer Mengen an Web-Videos für das Vor-Training von Videomodellen im Bereich der Aktionserkennung präsentiert. Unser wichtigstes empirisches Ergebnis ist, dass das Vor-Training in sehr großem Umfang (über 65 Millionen Videos), trotz störender sozialer Medien-Videos und -Hashtags, den Stand der Technik auf drei anspruchsvollen öffentlichen Aktionserkennungs-Datensätzen erheblich verbessert.Darüber hinaus untersuchen wir drei Fragen bei der Erstellung schwach überwachter Videoaktion-Datensätze. Erstens, da Aktionen mit Objekten interagieren, wie sollte man einen Verb-Objekt-Vor-Trainingslabelsraum konstruieren, um das Transfer-Lernen am besten zu fördern? Zweitens, rahmenbasierte Modelle erzielen bei der Aktionserkennung ziemlich gute Ergebnisse; reicht es aus, gute Bildmerkmale vorzutrainieren, oder hat das Vor-Training von räumlich-zeitlichen Merkmalen für optimales Transfer-Lernen einen Mehrwert? Schließlich sind Aktionen in langen Videos im Allgemeinen weniger gut lokalisiert als in kurzen Videos; da Aktionen auf Videoebene beschriftet werden, wie sollte man unter einem festgelegten Budget an Anzahl oder Minuten von Videos die besten Videoclips auswählen?Technische Begriffe:- fully-supervised: voll überwacht- pre-training: Vor-Training- action recognition: Aktionserkennung- verb-object pre-training label space: Verb-Objekt-Vor-Trainingslabelsraum- frame-based models: rahmenbasierte Modelle- spatio-temporal features: räumlich-zeitliche Merkmale- transfer learning: Transfer-Lernen

Großmaßstäbliche schwach überwachte Vortrainierung für die Aktionserkennung in Videos | Neueste Forschungsarbeiten | HyperAI