HyperAIHyperAI
vor 17 Tagen

Aus Chaos entsteht Ordnung: Ordnung von Ereignisdarstellungen für Objekterkennung und -detektion

Nikola Zubić, Daniel Gehrig, Mathias Gehrig, Davide Scaramuzza
Aus Chaos entsteht Ordnung: Ordnung von Ereignisdarstellungen für Objekterkennung und -detektion
Abstract

Heute konvertieren state-of-the-art tiefe neuronale Netze, die Ereignisse verarbeiten, diese zunächst in dichte, gitterförmige Eingaberepräsentationen, bevor sie ein herkömmliches Netzwerk einsetzen. Die Auswahl der geeigneten Repräsentation für eine Aufgabe erfordert jedoch traditionell das Training eines neuronalen Netzes für jede Repräsentation, gefolgt von der Auswahl der besten Variante basierend auf dem Validierungsergebnis – ein sehr zeitaufwendiger Prozess. Diese Arbeit beseitigt diese Engstelle, indem sie Repräsentationen auf der Grundlage der Gromov-Wasserstein-Disparität (GWD) zwischen rohen Ereignissen und deren Repräsentation auswählt. Die Berechnung der GWD ist etwa 200-mal schneller als das Training eines neuronalen Netzes und bewahrt dabei die Rangfolge der Aufgabenleistung verschiedener Ereignisrepräsentationen über mehrere Repräsentationen, Netzwerk-Backbones, Datensätze und Aufgaben hinweg. Folglich entspricht die Suche nach Repräsentationen mit hoher Aufgabenleistung der Suche nach Repräsentationen mit niedriger GWD. Auf der Grundlage dieses Einblicks führen wir erstmals eine Hyperparameter-Suche über eine große Familie von Ereignisrepräsentationen durch und identifizieren neue, leistungsstarke Repräsentationen, die die bisherigen State-of-the-Art-Leistungen übertreffen. Unsere optimierten Repräsentationen erreichen auf dem 1 Mpx-Datensatz eine Verbesserung um 1,7 mAP und auf dem Gen1-Datensatz um 0,3 mAP, zwei etablierte Benchmarks für Objekterkennung, sowie ein um 3,8 % höheres Klassifikationsergebnis auf dem mini-N-ImageNet-Benchmark. Darüber hinaus überbieten wir den State-of-the-Art um 2,1 mAP auf Gen1 und vorhergehende Feed-Forward-Methoden um 6,0 mAP auf dem 1 Mpx-Datensatz. Diese Arbeit eröffnet ein bisher unerforschtes Feld der expliziten Optimierung von Repräsentationen für ereignisbasiertes Lernen.