Eine umfassende Analyse des selbstüberwachten Lernens von Video-Darstellungen

Selbstüberwachtes Lernen ist eine effektive Methode zur vorbereitenden Trainierung von Modellen ohne Labels, insbesondere im Video-Bereich, wo das Labeling kostspielig ist. Bestehende Arbeiten im Bereich des selbstüberwachten Lernens verwenden unterschiedliche experimentelle Aufsätze, um ihre Effektivität zu demonstrieren, was die Vergleichbarkeit der Ansätze aufgrund des Fehlens eines Standardbenchmarks erschwert. In dieser Arbeit stellen wir zunächst einen Benchmark bereit, der es ermöglicht, existierende Ansätze auf gleicher Grundlage zu vergleichen. Anschließend untersuchen wir fünf verschiedene Aspekte des selbstüberwachten Lernens, die für Videos wichtig sind: 1) Datensatzgröße, 2) Komplexität, 3) Datenverteilung, 4) Datenrauschen und 5) Feature-Analyse. Um diese Untersuchung zu erleichtern, konzentrieren wir uns auf sieben verschiedene Methoden zusammen mit sieben verschiedenen Netzarchitekturen und führen eine umfangreiche Reihe von Experimenten auf fünf verschiedenen Datensätzen durch, wobei zwei verschiedene Downstream-Aufgaben evaluiert werden. Wir präsentieren mehrere interessante Erkenntnisse aus dieser Studie, die sich auf verschiedene Eigenschaften von Vorbereitungssdatensätzen und Ziel-Datensätzen, Vorwandaufgaben (pretext-tasks) und Modellarchitekturen erstrecken. Darüber hinaus setzen wir einige dieser Erkenntnisse in die Praxis um und schlagen einen Ansatz vor, der eine begrenzte Menge an Trainingsdaten erfordert und bestehende state-of-the-art-Methoden übertrifft, die zehnmal so viel Vorbereitungsdaten verwenden. Wir glauben, dass diese Arbeit den Weg für Forscher ebnen wird, um ein besseres Verständnis der selbstüberwachten Vorwandaufgaben in der Videodarstellungslernung zu gewinnen.