HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen von Video-Darstellungen durch dichtes prädiktives Codieren

Tengda Han Weidi Xie Andrew Zisserman

Zusammenfassung

Das Ziel dieser Arbeit ist das selbstüberwachte Lernen von räumlich-zeitlichen Einbettungen aus Videos, die für die Erkennung menschlicher Aktionen geeignet sind. Wir leisten drei Beiträge: Erstens führen wir den Dense Predictive Coding (DPC)-Framework für das selbstüberwachte Lernen von Repräsentationen in Videos ein. Dieses Verfahren lernt eine dichte Kodierung von räumlich-zeitlichen Blöcken durch rekurrente Vorhersage zukünftiger Repräsentationen; Zweitens schlagen wir ein Curriculum-Trainingsverfahren vor, um weiter in die Zukunft zu prognostizieren, wobei der zeitliche Kontext fortschreitend reduziert wird. Dies ermutigt das Modell, nur langsam veränderliche räumlich-zeitliche Signale zu kodieren, was wiederum semantische Repräsentationen fördert; Drittens bewerten wir den Ansatz, indem wir zunächst das DPC-Modell auf dem Kinetics-400-Datensatz mit selbstüberwachtem Lernen trainieren und dann die Repräsentation an einem nachgelagerten Aufgabenbereich, nämlich der Aktionserkennung, feinjustieren. Mit einem einzelnen Stream (nur RGB) erreichen die durch DPC vorgefertigten Repräsentationen einen Stand der Technik im Bereich des selbstüberwachten Lernens sowohl auf UCF101 (75,7 % Top-1-Akkuranz) als auch auf HMDB51 (35,7 % Top-1-Akkuranz). Sie übertreffen alle bisherigen Lernmethoden deutlich und nähern sich der Leistung eines auf ImageNet vorgefertigten Baselines.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lernen von Video-Darstellungen durch dichtes prädiktives Codieren | Paper | HyperAI