Shuffle und Lernen: Unüberwachtes Lernen durch die Überprüfung der zeitlichen Reihenfolge

In dieser Arbeit stellen wir einen Ansatz zur Lernung einer visuellen Repräsentation aus den rohen räumlich-zeitlichen Signalen in Videos vor. Unsere Repräsentation wird ohne Aufsicht von semantischen Labels gelernt. Wir formulieren unsere Methode als eine unüberwachte sequentielle Verifizierungsaufgabe, d.h., wir bestimmen, ob eine Folge von Bildern aus einem Video in der richtigen zeitlichen Reihenfolge ist. Mit dieser einfachen Aufgabe und ohne semantische Labels lernen wir eine leistungsfähige visuelle Repräsentation unter Verwendung eines Faltungsneuronalen Netzes (Convolutional Neural Network, CNN). Die Repräsentation enthält ergänzende Informationen zu denen, die aus überwachten Bild-Datensätzen wie ImageNet gelernt werden. Qualitative Ergebnisse zeigen, dass unsere Methode zeitlich veränderliche Informationen wie die menschliche Haltung erfasst. Wenn sie als Vorabtraining für die Aktionserkennung verwendet wird, liefert unsere Methode erhebliche Verbesserungen im Vergleich zum Lernen ohne externe Daten auf Benchmarks-Datensätzen wie UCF101 und HMDB51. Um ihre Empfindlichkeit gegenüber der menschlichen Haltung zu demonstrieren, zeigen wir Ergebnisse für die Pose-Schätzung auf den Datensätzen FLIC und MPII, die wettbewerbsfähig oder besser sind als Ansätze mit erheblich mehr Aufsicht. Unser Verfahren kann mit überwachten Repräsentationen kombiniert werden, um die Genauigkeit zusätzlich zu steigern.