Zur strombasierten Wahrnehmung

Die verkörperte Wahrnehmung bezieht sich auf die Fähigkeit eines autonomen Agenten, seine Umgebung wahrzunehmen, um (wieder) handeln zu können. Die Reaktionsfähigkeit des Agenten wird weitgehend von der Latenz seines Verarbeitungsprozesses bestimmt. Während frühere Arbeiten das algorithmische Spannungsfeld zwischen Latenz und Genauigkeit untersucht haben, gab es bisher kein klares Maß, um verschiedene Methoden entlang der Pareto-optimalen Latenz-Genauigkeits-Kurve zu vergleichen. Wir weisen eine Diskrepanz zwischen der standardmäßigen Offline-Evaluation und Echtzeitanwendungen hin: bis zur Beendigung der Verarbeitung eines bestimmten Bildes hat sich die Umwelt bereits verändert. Zu diesem Zweck präsentieren wir einen Ansatz, der Latenz und Genauigkeit in ein einheitliches Maß für die Echtzeit-Online-Wahrnehmung kohärent integriert, das wir als „Streaming-Accuracy“ bezeichnen. Das Kernkonzept dieses Maßes besteht darin, die Ausgabe des gesamten Wahrnehmungsstacks zu jedem Zeitpunkt gemeinsam zu bewerten, was den Stack zwingt, den Umfang der Streaming-Daten zu berücksichtigen, die während der Berechnung ignoriert werden sollten. Im weiteren Sinne bauen wir auf diesem Maß auf und führen eine Metabenchmarking-Methode ein, die systematisch jede einzelbildige Aufgabe in eine Streaming-Wahrnehmungsaufgabe umwandelt. Wir konzentrieren uns auf die beispielhaften Aufgaben der Objekterkennung und Instanzsegmentierung in städtischen Videostreams und stellen einen neuen Datensatz mit hochwertigen und zeitlich dichten Annotationen zur Verfügung. Unsere vorgeschlagenen Lösungen und ihre empirische Analyse führen zu einer Reihe überraschender Schlussfolgerungen: (1) Es existiert ein optimales „Südpunkt“ (sweet spot), das die Streaming-Accuracy entlang der Pareto-optimalen Latenz-Genauigkeits-Kurve maximiert, (2) asynchrone Verfolgung und Zukunftsprognose ergeben sich natürlicherweise als interne Darstellungen, die die Streaming-Wahrnehmung ermöglichen, und (3) dynamisches Scheduling kann verwendet werden, um zeitliche Aliasing-Probleme zu überwinden, was paradoxerweise dazu führt, dass manchmal durch Untätigkeit und „Nichtstun“ die Latenz minimiert wird.