Retina: Energieeffizientes Augenverfolgen mit Ereigniskamera und Spiking-Hardware

Dieses Papier stellt eine neuromorphe Methodik für die Augenverfolgung vor, die rein ereignisbasierte Daten nutzt, die von einer Dynamischen Sehsensor-Kamera (Dynamic Vision Sensor, DVS) erfasst werden. Das Framework integriert ein direkt trainiertes Spiking-Neuronen-Netz (SNN)-Regressionmodell und nutzt einen neuesten, energieeffizienten Edge-Neuromorphen Prozessor – den Speck – um die Genauigkeit und Effizienz von Augenverfolgungssystemen zu verbessern. Zunächst wird ein repräsentatives, ereignisbasierendes Augenverfolgungs-Datensatz namens "Ini-30" vorgestellt, der mit zwei auf Gläser montierten DVS-Kameras von dreißig Freiwilligen gesammelt wurde. Anschließend wird das SNN-Modell beschrieben, das auf Integrate-and-Fire (IAF)-Neuronen basiert und den Namen "Retina" trägt. Es verfügt über nur 64k Parameter (6,63-mal weniger als der aktuellste Stand) und erreicht einen Pupillenverfolgungsfehler von lediglich 3,24 Pixeln bei einer 64x64 DVS-Eingabe. Die kontinuierliche Regressionsausgabe wird durch Faltung mit einem nicht-spikenden zeitlichen 1D-Filter, der über die Ausgangsschicht der Spikes gleitet, erzielt. Schließlich wird Retina auf dem neuromorphen Prozessor evaluiert, wobei eine End-zu-End-Leistung zwischen 2,89-4,8 mW und eine Latenz zwischen 5,57-8,01 ms gemessen wird, abhängig vom Zeitfenster. Wir vergleichen unser Modell auch mit der neuesten ereignisbasierten Augenverfolgungsmethode "3ET", die auf Ereignisframes basiert. Die Ergebnisse zeigen, dass Retina eine höhere Genauigkeit erreicht: Der Fehler des Pupillenzentrums ist um 1,24 Pixel geringer und die berechnungstechnische Komplexität um 35-mal reduziert ist im Vergleich zur Anzahl der MAC-Vorgänge. Wir hoffen, dass diese Arbeit Wege für weitere Untersuchungen von Schleifen-neuromorphen Lösungen sowie für echte ereignisbasierte Trainingsmethoden eröffnet, die sich auf die Leistung am Edge konzentrieren.