HyperAIHyperAI

Command Palette

Search for a command to run...

Selbstüberwachtes räumlich-zeitliches Merkmalslernen durch Vorhersage der Videodrehung

Longlong Jing Xiaodong Yang Jinggen Liu Yingli Tian

Zusammenfassung

Der Erfolg tiefer neuronaler Netze erfordert in der Regel eine enorme Menge an etikettierten Trainingsdaten, was insbesondere bei Video-Sammlungen aufgrund der hohen Kosten und der Skalierbarkeitsschwierigkeiten oft nicht realisierbar ist. Um dieses Problem zu lindern, schlagen wir in dieser Arbeit 3DRotNet vor: einen vollständig selbstüberwachten Ansatz zur Lernung von räumlich-zeitlichen Merkmalen aus unetikettierten Videos. Eine Reihe von Rotationen wird auf alle Videos angewendet, und eine Vorab-Aufgabe (pretext task) besteht darin, diese Rotationen vorherzusagen. Bei der Ausführung dieser Aufgabe lernt 3DRotNet tatsächlich die semantischen Konzepte und Bewegungen in Videos zu verstehen. Mit anderen Worten, es lernt eine räumlich-zeitliche Videodarstellung, die in kleinere Datensätze übertragen werden kann, um Video-Verarbeitungsaufgaben zu verbessern. Unsere umfangreichen Experimente zeigen die Effektivität des vorgeschlagenen Frameworks bei der Aktionserkennung nachhaltig unter Beweis, wobei erhebliche Verbesserungen gegenüber den aktuellen selbstüberwachten Methoden erreicht werden. Durch das selbstüberwachte Vortrainieren von 3DRotNet mit großen Datensätzen steigt die Erkennungsrate um 20,4 % auf UCF101 und um 16,7 % auf HMDB51 im Vergleich zu Modellen, die ohne Vortrainierung trainiert wurden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Selbstüberwachtes räumlich-zeitliches Merkmalslernen durch Vorhersage der Videodrehung | Paper | HyperAI