Command Palette
Search for a command to run...
Skip-Clip: Selbstüberwachtes Lernen von räumlich-zeitlichen Repräsentationen durch die Rangfolge zukünftiger Clips
Skip-Clip: Selbstüberwachtes Lernen von räumlich-zeitlichen Repräsentationen durch die Rangfolge zukünftiger Clips
Alaaeldin El-Nouby Shuangfei Zhai Graham W. Taylor Joshua M. Susskind
Zusammenfassung
Tiefe neuronale Netze erfordern das Sammeln und Annotieren großer Datenmengen, um erfolgreich trainiert zu werden. Um die Annotationsschwierigkeiten zu lindern, schlagen wir einen neuen Ansatz für die selbstüberwachte Darstellungslernen von räumlich-zeitlichen Merkmalen aus Videos vor. Wir stellen Skip-Clip vor, eine Methode, die die zeitliche Kohärenz in Videos nutzt, indem ein tiefes Modell für die Rangfolge zukünftiger Clips unter Berücksichtigung eines Kontextclips als Surrogatziel für die Vorhersage der Videozukunft trainiert wird. Wir zeigen, dass mit unserer Methode gelernte Merkmale übertragbar sind und sich stark auf nachgelagerte Aufgaben positiv auswirken. Bei der Aktionserkennung im UCF101-Datensatz erreichen wir eine Verbesserung von 51,8 % im Vergleich zur zufälligen Initialisierung und übertreffen Modelle, die mit aufgeblasenen ImageNet-Parametern initialisiert wurden. Skip-Clip erzielt auch Ergebnisse, die mit den besten Methoden des selbstüberwachten Lernens konkurrieren können.