Hierarchische Darstellung von Videobildfolgen mit tiefen konvolutiven Graphnetzwerken

Hochgenaue Videobeschriftungsvorhersagemodelle (Klassifizierung) werden der Verwendung von großen Datenmengen zugeschrieben. Diese Daten können Sequenzen von Bilderrahmenmerkmalen sein, die durch ein vortrainiertes Faltungsneuronales Netzwerk (Convolutional Neural Network, CNN) extrahiert wurden und die Effizienz bei der Erstellung von Modellen erhöhen. Unüberwachte Lösungen wie das Feature-Average-Pooling, eine einfache methode ohne Parameterabhängigkeit zur Beschriftung, haben eine begrenzte Fähigkeit, das Video adäquat darzustellen. Überwachte Methoden wie Rekurrente Neuronale Netze (RNN) können hingegen die Erkennungsgenauigkeit erheblich verbessern. Allerdings ist die Videolänge in der Regel lang, und es bestehen hierarchische Beziehungen zwischen den Bilderrahmen über die Ereignisse im Video hinweg, was die Leistung von RNN-basierten Modellen beeinträchtigt. In dieser Arbeit schlagen wir eine neue Methode zur Videoklassifizierung vor, die auf einem tiefen Faltungsgraphneuronalen Netzwerk (Deep Convolutional Graph Neural Network, DCGN) basiert. Die vorgeschlagene Methode nutzt die Eigenschaften der hierarchischen Struktur des Videos und führt durch das Graphennetzwerk mehrstufige Merkmalsextraktion an der Sequenz der Bilderrahmen durch, um eine Video-Darstellung zu erhalten, die die Ereignissemantik in einer hierarchischen Weise widerspiegelt. Wir testeten unser Modell auf dem YouTube-8M Large-Scale Video Understanding Datensatz und erzielten bessere Ergebnisse als RNN-basierte Referenzmodelle.