Command Palette
Search for a command to run...
Großmaßstäbliche schwach überwachte Vortrainierung für die Aktionserkennung in Videos
Großmaßstäbliche schwach überwachte Vortrainierung für die Aktionserkennung in Videos
Deepti Ghadiyaram Matt Feiszli Du Tran Xuetong Yan Heng Wang Dhruv Mahajan
Zusammenfassung
Aktuelle voll überwachte Video-Datensätze bestehen nur aus einigen Hunderttausend Videos und weniger als tausend domänenspezifischen Labels. Dies behindert den Fortschritt in Richtung fortschrittlicher Video-Architekturen. In dieser Arbeit wird eine umfassende Studie zur Verwendung großer Mengen an Web-Videos für das Vor-Training von Videomodellen im Bereich der Aktionserkennung präsentiert. Unser wichtigstes empirisches Ergebnis ist, dass das Vor-Training in sehr großem Umfang (über 65 Millionen Videos), trotz störender sozialer Medien-Videos und -Hashtags, den Stand der Technik auf drei anspruchsvollen öffentlichen Aktionserkennungs-Datensätzen erheblich verbessert.Darüber hinaus untersuchen wir drei Fragen bei der Erstellung schwach überwachter Videoaktion-Datensätze. Erstens, da Aktionen mit Objekten interagieren, wie sollte man einen Verb-Objekt-Vor-Trainingslabelsraum konstruieren, um das Transfer-Lernen am besten zu fördern? Zweitens, rahmenbasierte Modelle erzielen bei der Aktionserkennung ziemlich gute Ergebnisse; reicht es aus, gute Bildmerkmale vorzutrainieren, oder hat das Vor-Training von räumlich-zeitlichen Merkmalen für optimales Transfer-Lernen einen Mehrwert? Schließlich sind Aktionen in langen Videos im Allgemeinen weniger gut lokalisiert als in kurzen Videos; da Aktionen auf Videoebene beschriftet werden, wie sollte man unter einem festgelegten Budget an Anzahl oder Minuten von Videos die besten Videoclips auswählen?Technische Begriffe:- fully-supervised: voll überwacht- pre-training: Vor-Training- action recognition: Aktionserkennung- verb-object pre-training label space: Verb-Objekt-Vor-Trainingslabelsraum- frame-based models: rahmenbasierte Modelle- spatio-temporal features: räumlich-zeitliche Merkmale- transfer learning: Transfer-Lernen