vor 2 Monaten

Tiefgebratene Convnets

Zichao Yang; Marcin Moczulski; Misha Denil; Nando de Freitas; Alex Smola; Le Song; Ziyu Wang

Abstract

Die vollständig verbundenen Schichten eines tiefen Faltungsneuronalen Netzes enthalten in der Regel über 90 % der Netzparameter und verbrauchen den Großteil des Speichers, der zur Speicherung der Netzparameter erforderlich ist. Die Reduzierung der Anzahl der Parameter unter gleichzeitiger Erhaltung wesentlich derselben Vorhersileistung ist von entscheidender Bedeutung für den Betrieb tiefer Neuronaler Netze in speicherbeschränkten Umgebungen wie GPUs oder eingebetteten Geräten.In dieser Arbeit zeigen wir, wie Kernelsmethoden, insbesondere eine einzelne Fastfood-Schicht, verwendet werden können, um alle vollständig verbundenen Schichten in einem tiefen Faltungsneuronalen Netz zu ersetzen. Diese neuartige Fastfood-Schicht kann auch end-to-end zusammen mit Faltungsschichten trainiert werden, was es uns ermöglicht, sie in eine neue Architektur zu integrieren, die als "Deep Fried Convolutional Networks" (tiefgebratene Faltungsnetze) bezeichnet wird. Diese Architektur verringert den Speicherbedarf von auf MNIST und ImageNet trainierten Faltungsnetzen erheblich, ohne dass die Vorhersileistung nachlässt.