HyperAIHyperAI

Command Palette

Search for a command to run...

Selbstüberwachtes Lernen von Videodarstellungen mit Raum-Zeit-Würfeln

Dahun Kim Donghyeon Cho In So Kweon

Zusammenfassung

Selbstüberwachte Aufgaben wie Kolorierung, Inpainting und Jigsaw-Puzzle werden zur visuellen Repräsentationslernen für stille Bilder genutzt, wenn die Anzahl der etikettierten Bilder begrenzt ist oder gar nicht vorhanden. Kürzlich hat sich dieser wertvolle Forschungsstrom auf den Videobereich ausgeweitet, wo die Kosten für menschliches Etikettieren noch höher sind. Dennoch basieren die meisten existierenden Methoden weiterhin auf 2D-CNN-Architekturen, die räumlich-zeitliche Informationen für Videoanwendungen nicht direkt erfassen können. In diesem Artikel stellen wir eine neue selbstüberwachte Aufgabe vor, die als \textit{Raum-Zeit Kubus Puzzle} bezeichnet wird, um 3D-CNNs mit großen Video-Datensätzen zu trainieren. Diese Aufgabe erfordert von einem Netzwerk, permutierte 3D-räumlich-zeitliche Ausschnitte anzuordnen. Durch das Lösen von \textit{Raum-Zeit Kubus Puzzles} lernt das Netzwerk sowohl die räumliche Erscheinung als auch die zeitliche Beziehung der Videoframes, was unser endgültiges Ziel ist. In Experimenten zeigen wir, dass unsere gelernten 3D-Repräsentation gut auf Aktionserkennungsaufgaben übertragen wird und in den Datensätzen UCF101 und HMDB51 den aktuellen Stand der Technik bildenden 2D-CNN-basierten Konkurrenten übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Selbstüberwachtes Lernen von Videodarstellungen mit Raum-Zeit-Würfeln | Paper | HyperAI