HyperAIHyperAI
vor 2 Monaten

Video-Klassifikation mit kanalgetrennten Faltungsnetzen

Du Tran; Heng Wang; Lorenzo Torresani; Matt Feiszli
Video-Klassifikation mit kanalgetrennten Faltungsnetzen
Abstract

Gruppenkonvolution wurde bereits in verschiedenen 2D-Faltungsarchitekturen für die Bildklassifizierung als eine Methode gezeigt, die erhebliche Recheneinsparungen bietet. Es ist naheliegend, folgende Fragen zu stellen: 1) ob Gruppenkonvolution helfen kann, den hohen Rechenaufwand von Video-Klassifikationsnetzwerken zu reduzieren; 2) welche Faktoren in 3D-Gruppenfaltungsnetzwerken am wichtigsten sind; und 3) welche guten Kompromisse zwischen Rechenaufwand und Genauigkeit mit 3D-Gruppenfaltungsnetzwerken möglich sind.In dieser Arbeit untersuchen wir die Auswirkungen verschiedener Designentscheidungen in 3D-Gruppenfaltungsnetzwerken für die Video-Klassifizierung. Wir demonstrieren empirisch, dass der Umfang der Kanalinteraktionen eine wichtige Rolle bei der Genauigkeit von 3D-Gruppenfaltungsnetzwerken spielt. Unsere Experimente führen zu zwei Hauptergebnissen. Erstens zeigt sich, dass es eine gute Praxis ist, 3D-Faltungen durch Trennung von Kanalinteraktionen und räumlich-zeitlichen Interaktionen zu faktorisieren, da dies zu einer verbesserten Genauigkeit und einem geringeren Rechenaufwand führt. Zweitens bieten 3D kanalfreundliche Faltungen eine Form der Regularisierung, was zu einer geringeren Trainingsgenauigkeit, aber einer höheren Testgenauigkeit im Vergleich zu herkömmlichen 3D-Faltungen führt. Diese beiden empirischen Erkenntnisse haben uns dazu geführt, eine Architektur – das Channel-Separated Convolutional Network (CSN) – zu entwerfen, die einfach, effizient und dennoch genau ist. Auf Sports1M, Kinetics und Something-Something erreichen unsere CSNs vergleichbare oder sogar bessere Ergebnisse als der aktuelle Stand der Technik und sind dabei 2-3 Mal effizienter.