Effiziente neuronale Visionssysteme basierend auf faltender Bildaufnahme

Trotz der erheblichen Fortschritte in der tiefen Lernverfahren in den letzten Jahren bleiben fortgeschrittene Ansätze rechenintensiv. Der Kompromiss zwischen Genauigkeit und Rechenzeit sowie Energieverbrauch begrenzt ihre Anwendung in Echtzeit-Anwendungen auf energiearmen und anderen ressourcenbeschränkten Systemen. In diesem Paper greifen wir diese grundlegende Herausforderung an, indem wir eine hybride optisch-digitale Implementierung eines Faltungsneuronalen Netzes (CNN) vorstellen, die auf der Gestaltung der Punktverbreiterungsfunktion (PSF) eines optischen Abbildungssystems basiert. Dabei wird eine Abbildungsapertur so codiert, dass ihre PSF einen großen Faltungs-Kern der ersten Schicht eines vortrainierten CNN nachbildet. Da die Faltung im optischen Bereich stattfindet, entsteht sie energetisch kostenfrei und weist eine Null-Latenz unabhängig von der Größe des Faltungs-Kerns auf. Experimentelle Ergebnisse an zwei Datensätzen zeigen, dass unsere Methode die rechnerische Kosten um mehr als zwei Größenordnungen reduziert, während gleichzeitig eine nahezu state-of-the-art Genauigkeit erreicht wird – oder alternativ, eine bessere Genauigkeit bei gleichbleibendem Rechenaufwand erzielt wird.