vor 2 Monaten

Lernen von Video-Darstellungen durch dichtes prädiktives Codieren

Tengda Han; Weidi Xie; Andrew Zisserman

Abstract

Das Ziel dieser Arbeit ist das selbstüberwachte Lernen von räumlich-zeitlichen Einbettungen aus Videos, die für die Erkennung menschlicher Aktionen geeignet sind. Wir leisten drei Beiträge: Erstens führen wir den Dense Predictive Coding (DPC)-Framework für das selbstüberwachte Lernen von Repräsentationen in Videos ein. Dieses Verfahren lernt eine dichte Kodierung von räumlich-zeitlichen Blöcken durch rekurrente Vorhersage zukünftiger Repräsentationen; Zweitens schlagen wir ein Curriculum-Trainingsverfahren vor, um weiter in die Zukunft zu prognostizieren, wobei der zeitliche Kontext fortschreitend reduziert wird. Dies ermutigt das Modell, nur langsam veränderliche räumlich-zeitliche Signale zu kodieren, was wiederum semantische Repräsentationen fördert; Drittens bewerten wir den Ansatz, indem wir zunächst das DPC-Modell auf dem Kinetics-400-Datensatz mit selbstüberwachtem Lernen trainieren und dann die Repräsentation an einem nachgelagerten Aufgabenbereich, nämlich der Aktionserkennung, feinjustieren. Mit einem einzelnen Stream (nur RGB) erreichen die durch DPC vorgefertigten Repräsentationen einen Stand der Technik im Bereich des selbstüberwachten Lernens sowohl auf UCF101 (75,7 % Top-1-Akkuranz) als auch auf HMDB51 (35,7 % Top-1-Akkuranz). Sie übertreffen alle bisherigen Lernmethoden deutlich und nähern sich der Leistung eines auf ImageNet vorgefertigten Baselines.