ProjectionNet : Apprentissage de réseaux de neurones profonds efficaces sur appareil à l'aide de projections neuronales

Les réseaux neuronaux profonds sont devenus omniprésents pour les applications liées à la reconnaissance visuelle et à la compréhension du langage. Cependant, l'utilisation de réseaux neuronaux typiques sur des appareils tels que les téléphones mobiles ou les montres intelligentes est souvent impossible en raison de la taille considérable des modèles, qui ne peuvent pas s'adapter à la mémoire limitée disponible sur ces appareils. Bien que ces appareils puissent utiliser des modèles d'apprentissage automatique exécutés dans des centres de données haute performance équipés de CPU ou GPU, cette solution n'est pas viable pour de nombreuses applications car les données peuvent être sensibles au point de vue de la confidentialité et l'inférence doit être effectuée directement « sur » l'appareil.Nous présentons une nouvelle architecture pour former des réseaux neuronaux compacts en utilisant un cadre d'optimisation conjointe. Au cœur de cette architecture se trouve un objectif novateur qui forme conjointement deux types différents de réseaux : un réseau neuronal formateur complet (utilisant des architectures existantes comme les réseaux de neurones à alimentation avant [Feed-forward NNs] ou les réseaux de neurones récurrents à longue courte mémoire [LSTM RNNs]) combiné avec un réseau plus simple appelé « réseau de projection » qui utilise des projections aléatoires pour transformer les entrées ou les représentations intermédiaires en bits. Le réseau plus simple encode des opérations légères et efficaces à calculer dans l'espace binaire avec une empreinte mémoire faible. Les deux réseaux sont formés conjointement par rétropropagation, où le réseau de projection apprend auprès du réseau complet selon un principe similaire à celui de l'apprentissage par apprentissage (apprenticeship learning). Une fois formé, le petit réseau peut être utilisé directement pour l'inférence avec un coût mémoire et computationnel faible.Nous démontrons l'efficacité de cette nouvelle approche en montrant qu'elle permet une réduction significative des exigences en matière de mémoire pour différents types de réseaux neuronaux tout en préservant une bonne précision pour les tâches de reconnaissance visuelle et de classification textuelle. Nous étudions également la question « combien de bits neuronaux sont nécessaires pour résoudre une tâche donnée ? » en utilisant ce nouveau cadre et présentons des résultats empiriques comparant la capacité prédictive du modèle (en bits) à sa précision sur plusieurs jeux de données.