Selbstüberwachtes räumlich-zeitliches Merkmalslernen durch Vorhersage der Videodrehung

Der Erfolg tiefer neuronaler Netze erfordert in der Regel eine enorme Menge an etikettierten Trainingsdaten, was insbesondere bei Video-Sammlungen aufgrund der hohen Kosten und der Skalierbarkeitsschwierigkeiten oft nicht realisierbar ist. Um dieses Problem zu lindern, schlagen wir in dieser Arbeit 3DRotNet vor: einen vollständig selbstüberwachten Ansatz zur Lernung von räumlich-zeitlichen Merkmalen aus unetikettierten Videos. Eine Reihe von Rotationen wird auf alle Videos angewendet, und eine Vorab-Aufgabe (pretext task) besteht darin, diese Rotationen vorherzusagen. Bei der Ausführung dieser Aufgabe lernt 3DRotNet tatsächlich die semantischen Konzepte und Bewegungen in Videos zu verstehen. Mit anderen Worten, es lernt eine räumlich-zeitliche Videodarstellung, die in kleinere Datensätze übertragen werden kann, um Video-Verarbeitungsaufgaben zu verbessern. Unsere umfangreichen Experimente zeigen die Effektivität des vorgeschlagenen Frameworks bei der Aktionserkennung nachhaltig unter Beweis, wobei erhebliche Verbesserungen gegenüber den aktuellen selbstüberwachten Methoden erreicht werden. Durch das selbstüberwachte Vortrainieren von 3DRotNet mit großen Datensätzen steigt die Erkennungsrate um 20,4 % auf UCF101 und um 16,7 % auf HMDB51 im Vergleich zu Modellen, die ohne Vortrainierung trainiert wurden.