vor 11 Tagen

RNNPool: Effizientes nichtlineares Pooling für inferenzbasierte Anwendungen mit begrenztem RAM

Oindrila Saha, Aditya Kusupati, Harsha Vardhan Simhadri, Manik Varma, Prateek Jain

Abstract

Standard-Convolutional Neural Networks (CNNs), die für Aufgaben im Bereich Computer Vision konzipiert sind, weisen tendenziell große Zwischenaktivierungskarten auf. Diese erfordern einen hohen Arbeitsspeicher und sind daher für die Bereitstellung auf ressourcenbeschränkten Geräten, die typischerweise für Inferenzaufgaben am Edge eingesetzt werden, ungeeignet. Eine aggressive Herabstufung der Bilder mittels Pooling oder versetzter Faltungen kann das Problem adressieren, führt jedoch aufgrund der starken Aggregation der Merkmalskarten durch herkömmliche Pooling-Operatoren zu einer erheblichen Abnahme der Genauigkeit. In diesem Artikel stellen wir RNNPool vor, einen neuartigen Pooling-Operator, der auf rekurrenten neuronalen Netzen (RNNs) basiert und Merkmale effizient über große Bildbereiche aggregiert sowie Aktivierungskarten schnell herunterstufen kann. Empirische Evaluierungen zeigen, dass eine RNNPool-Schicht in verschiedenen Architekturen wie MobileNets oder DenseNet effektiv mehrere Blöcke ersetzen kann, wenn sie auf Standard-Vision-Aufgaben wie Bildklassifikation oder Gesichtserkennung angewendet wird. Mit anderen Worten: RNNPool kann die rechnerische Komplexität und den Spitzen-Speicherverbrauch bei der Inferenz erheblich reduzieren, während gleichzeitig eine vergleichbare Genauigkeit beibehalten wird. Wir integrieren RNNPool in die Standardarchitektur S3FD und entwickeln eine Gesichtserkennungsmethode, die für winzige ARM Cortex-M4-Klassen-Mikrocontroller mit weniger als 256 KB RAM einen Stand der Technik erreicht, gemessen an der mittleren Genauigkeit (MAP). Der Quellcode ist unter https://github.com/Microsoft/EdgeML verfügbar.