Command Palette
Search for a command to run...
Maximierung der räumlich-zeitlichen Entropie tiefer 3D-CNNs für eine effiziente Videoerkennung
Maximierung der räumlich-zeitlichen Entropie tiefer 3D-CNNs für eine effiziente Videoerkennung
Junyan Wang Zhenhong Sun Yichen Qian Dong Gong Xiuyu Sun Ming Lin Maurice Pagnucco Yang Song
Zusammenfassung
3D-Faltungsneuronale Netze (CNNs) sind der vorherrschende Ansatz für die Videoerkennung. Um zeitliche Informationen zu erfassen, werden 3D-Faltungen entlang der Sequenzen berechnet, was zu einer kubisch wachsenden und kostspieligen Berechnung führt. Um die Rechenkosten zu reduzieren, greifen herkömmliche Methoden auf manuell entworfene 3D/2D-CNN-Architekturen mit Näherungen oder automatisierte Suchverfahren zurück, wodurch entweder die Modellierungsleistung beeinträchtigt oder der Trainingsprozess zeitaufwendig wird. In dieser Arbeit schlagen wir einen neuartigen, trainingsfreien Ansatz zur automatischen Gestaltung effizienter 3D-CNN-Architekturen vor, der speziell auf die Komplexität von 3D-CNNs abgestimmt ist. Um die Ausdruckskraft von 3D-CNNs effizient zu messen, formulieren wir ein 3D-CNN als Informationssystem und leiten einen analytischen Entropie-Score ab, basierend auf dem Prinzip der maximalen Entropie. Konkret schlagen wir einen raumzeitlichen Entropie-Score (STEntr-Score) mit einem Verbesserungsfaktor vor, der die Diskrepanz der visuellen Informationen in räumlichen und zeitlichen Dimensionen berücksichtigt, indem er dynamisch die Korrelation zwischen der Feature-Map-Größe und der Kernel-Größe tiefenweise ausnutzt. Dadurch können hochgradig effiziente und ausdrucksstarke 3D-CNN-Architekturen – also Entropie-basierte 3D-CNNs (E3D-Familie) – effizient durch Maximierung des STEntr-Scores unter einer gegebenen Rechenbeschränkung gefunden werden, wobei kein Training der Netzwerkparameter erforderlich ist, sondern eine evolutionäre Algorithmus verwendet wird. Umfassende Experimente auf den Datensätzen Something-Something V1 & V2 und Kinetics400 zeigen, dass die E3D-Familie eine state-of-the-art-Leistung mit höherer Rechen-Effizienz erzielt. Der Quellcode ist unter https://github.com/alibaba/lightweight-neural-architecture-search verfügbar.