ProjectionNet: Lernen effizienter auf-Gerät-Tiefennetze durch neuronale Projektionen

Tiefe neuronale Netze sind inzwischen allgegenwärtig für Anwendungen im Bereich der visuellen Erkennung und der Sprachverarbeitung. Allerdings ist es oft unmöglich, typische neuronale Netze auf Geräten wie Mobiltelefonen oder Smartwatches zu verwenden, da die Modellgrößen sehr groß sind und nicht in den begrenzten Speicher dieser Geräte passen. Obwohl diese Geräte von maschinellem Lernen profitieren könnten, das auf Hochleistungsrechenzentren mit CPUs oder GPUs ausgeführt wird, ist dies für viele Anwendungen nicht praktikabel, da die Daten sensible Informationen enthalten können und die Inferenz direkt "auf" dem Gerät durchgeführt werden muss.Wir stellen eine neue Architektur zur Ausbildung kompakter neuronaler Netze vor, die ein gemeinsames Optimierungsframework verwendet. Im Zentrum dieses Ansatzes steht ein neues Ziel, das zwei verschiedene Netztypen gemeinsam trainiert – ein vollständiges Trainer-Neuronales Netz (mit existierenden Architekturen wie Feedforward-NNs oder LSTM-RNNs) kombiniert mit einem einfachen "Projektions"-Netz, das zufällige Projektionen nutzt, um Eingaben oder Zwischendarstellungen in Bits zu transformieren. Das einfachere Netz kodiert leichte und effiziente Berechnungen im Bitraum mit geringem Speicherverbrauch. Die beiden Netze werden gemeinsam durch Backpropagation trainiert, wobei das Projektionsnetz vom vollständigen Netz lernt, ähnlich wie bei der Lehrlingsausbildung (apprenticeship learning). Nach dem Training kann das kleinere Netz direkt für die Inferenz verwendet werden, wodurch geringer Speicher- und Rechenbedarf entsteht. Wir zeigen die Effektivität des neuen Ansatzes anhand verschiedener Arten von neuronalen Netzen, indem wir deren Speicheranforderungen erheblich reduzieren und gleichzeitig eine gute Genauigkeit bei Aufgaben der visuellen Erkennung und Textklassifizierung beibehalten. Darüber hinaus untersuchen wir mithilfe des neuen Frameworks die Fragestellung "Wie viele neurale Bits sind erforderlich, um eine bestimmte Aufgabe zu lösen?" und präsentieren empirische Ergebnisse zum Vergleich der modellhaften Vorhersagekapazität (in Bits) mit der Genauigkeit auf mehreren Datensätzen.