Eine umfangreiche Studie zum unüberwachten Lernen von räumlich-zeitlichen Repräsentationen

Wir präsentieren eine umfassende Studie zur unüberwachten Lernung von räumlich-zeitlichen Darstellungen aus Videos. Unter einem einheitlichen Ansatz vier neuer bildbasierter Frameworks untersuchen wir ein einfaches Ziel, das alle diese Methoden leicht auf den Raum-Zeit-Bereich verallgemeinern kann. Unser Ziel fördert zeitlich beständige Merkmale innerhalb desselben Videos und funktioniert trotz seiner Einfachheit überraschend gut bei: (i) verschiedenen unüberwachten Frameworks, (ii) Vortrainingsdatensätzen, (iii) Downstream-Datensätzen und (iv) Backbone-Architekturen. Aus dieser Studie ziehen wir eine Reihe faszinierender Beobachtungen, z.B. entdecken wir, dass die Förderung einer langfristigen Beständigkeit effektiv sein kann, selbst wenn der Zeitraum 60 Sekunden beträgt. Neben den Stand-der-Technik-Ergebnissen in mehreren Benchmarks berichten wir auch über einige vielversprechende Fälle, in denen unüberwachte Vortrainingsmethoden ihre überwachten Gegenstücke übertreffen können. Der Quellcode ist unter https://github.com/facebookresearch/SlowFast verfügbar.