HyperAIHyperAI
vor 17 Tagen

DeepMAD: Mathematische Architekturdesign für tiefe Faltungsneuronale Netze

Xuan Shen, Yaohua Wang, Ming Lin, Yilun Huang, Hao Tang, Xiuyu Sun, Yanzhi Wang
DeepMAD: Mathematische Architekturdesign für tiefe Faltungsneuronale Netze
Abstract

Die rasanten Fortschritte bei Vision Transformers (ViT) haben die state-of-the-art-Leistungen in verschiedenen computersehenbasierten Aufgaben erneut verbessert und damit herkömmliche CNN-basierte Modelle in den Schatten gestellt. Dies hat zu einer Reihe neuer, zurückhaltender Forschungsarbeiten im Bereich der CNNs geführt, die zeigen, dass reine CNN-Modelle bei sorgfältiger Feinabstimmung Leistungen erreichen können, die mit denen von ViT-Modellen vergleichbar sind. Obwohl dies ermutigend ist, erweist sich die Entwicklung solcher hochleistungsfähiger CNN-Modelle als herausfordernd und erfordert erhebliches vorheriges Wissen über Netzwerkarchitekturen. Um diesem Problem zu begegnen, wird ein neuartiger Rahmen namens Mathematical Architecture Design for Deep CNN (DeepMAD) vorgestellt, der es ermöglicht, hochleistungsfähige CNN-Modelle auf systematischer, mathematisch fundierter Basis zu entwerfen. In DeepMAD wird ein CNN-Netzwerk als ein Informationssystem modelliert, dessen Ausdruckskraft und Effektivität analytisch durch deren strukturelle Parameter formuliert werden können. Anschließend wird ein eingeschränktes mathematisches Programmierungsproblem (MP) vorgeschlagen, um diese strukturellen Parameter zu optimieren. Dieses MP-Problem lässt sich mit geringem Speicherverbrauch problemlos mit herkömmlichen MP-Lösern auf CPUs lösen. Zudem handelt es sich bei DeepMAD um einen rein mathematischen Rahmen: Während des Netzwerkentwurfs werden weder GPU noch Trainingsdaten benötigt. Die Überlegenheit von DeepMAD wird an mehreren großen computersehenbasierten Benchmark-Datensätzen validiert. Insbesondere auf ImageNet-1k erreicht DeepMAD – allein mit herkömmlichen Faltungsoperationen – eine Top-1-Accuracy, die um 0,7 % und 1,5 % höher ist als die von ConvNeXt und Swin auf der Tiny-Ebene, und um 0,8 % bzw. 0,9 % auf der Small-Ebene.