Zeitlich-orientierte Aufmerksamkeits-Spike-Neuronale Netze für die Klassifikation von Ereignisströmen

Die effektive und effiziente Behandlung von raumzeitlichen Ereignisströmen, die im Allgemeinen spärlich und nicht gleichmäßig verteilt sind und eine Auflösung im Mikrosekundenbereich aufweisen, ist von großem Wert und findet vielfältige Anwendungen in der Praxis. Spiking Neural Networks (SNNs), eine der neuronale Netzwerke nachahmenden, ereignisgetriggerten Rechenmodelle, besitzen das Potenzial, wirksame raumzeitliche Merkmale aus solchen Ereignisströmen zu extrahieren. Allerdings legen bestehende SNN-Modelle bei der Aggregation einzelner Ereignisse zu Bildern mit einer höheren zeitlichen Auflösung nicht ausreichend Wert darauf, dass die aufeinanderfolgenden Bilder unterschiedliche Signal-Rausch-Verhältnisse aufweisen, was auf die Spärlichkeit und Nicht-Gleichmäßigkeit der Ereignisströme zurückzuführen ist. Dies beeinträchtigt die Leistungsfähigkeit bestehender SNNs erheblich. In dieser Arbeit präsentieren wir ein zeitlich differenziertes Aufmerksamkeits-SNN-Modell (TA-SNN), das darauf abzielt, bildbasierte Darstellungen für die Verarbeitung von Ereignisströmen zu lernen. Konkret erweitern wir das Konzept der Aufmerksamkeit auf die zeitliche Dimension der Eingabedaten, um im Trainingsstadium die Bedeutung einzelner Bilder für die endgültige Entscheidung zu bewerten, und entfernen im Inferenzstadium irrelevanten Bildmaterial. Wir zeigen, dass TA-SNN-Modelle die Genauigkeit von Klassifizierungsaufgaben für Ereignisströme verbessern. Zudem untersuchen wir den Einfluss mehrskaliger zeitlicher Auflösungen auf die bildbasierte Darstellung. Unser Ansatz wird an drei verschiedenen Klassifizierungsaufgaben getestet: Gestenerkennung, Bildklassifizierung und Sprachziffernerkennung. Wir erreichen dabei state-of-the-art-Ergebnisse auf diesen Aufgaben und erzielen für die Gestenerkennung eine entscheidende Genauigkeitssteigerung um fast 19 % bei lediglich 60 ms Verarbeitungszeit.