vor 2 Monaten

Selbstüberwachtes Lernen von Videodarstellungen mit Raum-Zeit-Würfeln

Dahun Kim; Donghyeon Cho; In So Kweon

Abstract

Selbstüberwachte Aufgaben wie Kolorierung, Inpainting und Jigsaw-Puzzle werden zur visuellen Repräsentationslernen für stille Bilder genutzt, wenn die Anzahl der etikettierten Bilder begrenzt ist oder gar nicht vorhanden. Kürzlich hat sich dieser wertvolle Forschungsstrom auf den Videobereich ausgeweitet, wo die Kosten für menschliches Etikettieren noch höher sind. Dennoch basieren die meisten existierenden Methoden weiterhin auf 2D-CNN-Architekturen, die räumlich-zeitliche Informationen für Videoanwendungen nicht direkt erfassen können. In diesem Artikel stellen wir eine neue selbstüberwachte Aufgabe vor, die als \textit{Raum-Zeit Kubus Puzzle} bezeichnet wird, um 3D-CNNs mit großen Video-Datensätzen zu trainieren. Diese Aufgabe erfordert von einem Netzwerk, permutierte 3D-räumlich-zeitliche Ausschnitte anzuordnen. Durch das Lösen von \textit{Raum-Zeit Kubus Puzzles} lernt das Netzwerk sowohl die räumliche Erscheinung als auch die zeitliche Beziehung der Videoframes, was unser endgültiges Ziel ist. In Experimenten zeigen wir, dass unsere gelernten 3D-Repräsentation gut auf Aktionserkennungsaufgaben übertragen wird und in den Datensätzen UCF101 und HMDB51 den aktuellen Stand der Technik bildenden 2D-CNN-basierten Konkurrenten übertrifft.