HyperAIHyperAI

Command Palette

Search for a command to run...

Maximierung der räumlich-zeitlichen Entropie tiefer 3D-CNNs für eine effiziente Videoerkennung

Junyan Wang Zhenhong Sun Yichen Qian Dong Gong Xiuyu Sun Ming Lin Maurice Pagnucco Yang Song

Zusammenfassung

3D-Faltungsneuronale Netze (CNNs) sind der vorherrschende Ansatz für die Videoerkennung. Um zeitliche Informationen zu erfassen, werden 3D-Faltungen entlang der Sequenzen berechnet, was zu einer kubisch wachsenden und kostspieligen Berechnung führt. Um die Rechenkosten zu reduzieren, greifen herkömmliche Methoden auf manuell entworfene 3D/2D-CNN-Architekturen mit Näherungen oder automatisierte Suchverfahren zurück, wodurch entweder die Modellierungsleistung beeinträchtigt oder der Trainingsprozess zeitaufwendig wird. In dieser Arbeit schlagen wir einen neuartigen, trainingsfreien Ansatz zur automatischen Gestaltung effizienter 3D-CNN-Architekturen vor, der speziell auf die Komplexität von 3D-CNNs abgestimmt ist. Um die Ausdruckskraft von 3D-CNNs effizient zu messen, formulieren wir ein 3D-CNN als Informationssystem und leiten einen analytischen Entropie-Score ab, basierend auf dem Prinzip der maximalen Entropie. Konkret schlagen wir einen raumzeitlichen Entropie-Score (STEntr-Score) mit einem Verbesserungsfaktor vor, der die Diskrepanz der visuellen Informationen in räumlichen und zeitlichen Dimensionen berücksichtigt, indem er dynamisch die Korrelation zwischen der Feature-Map-Größe und der Kernel-Größe tiefenweise ausnutzt. Dadurch können hochgradig effiziente und ausdrucksstarke 3D-CNN-Architekturen – also Entropie-basierte 3D-CNNs (E3D-Familie) – effizient durch Maximierung des STEntr-Scores unter einer gegebenen Rechenbeschränkung gefunden werden, wobei kein Training der Netzwerkparameter erforderlich ist, sondern eine evolutionäre Algorithmus verwendet wird. Umfassende Experimente auf den Datensätzen Something-Something V1 & V2 und Kinetics400 zeigen, dass die E3D-Familie eine state-of-the-art-Leistung mit höherer Rechen-Effizienz erzielt. Der Quellcode ist unter https://github.com/alibaba/lightweight-neural-architecture-search verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp