HyperAIHyperAI
il y a 2 mois

Vers la perception en flux continu

Mengtian Li; Yu-Xiong Wang; Deva Ramanan
Vers la perception en flux continu
Résumé

La perception incarnée désigne la capacité d'un agent autonome à percevoir son environnement afin de pouvoir (ré)agir. La réactivité de l'agent est largement déterminée par la latence de sa chaîne de traitement. Bien que des travaux antérieurs aient étudié le compromis algorithmique entre latence et précision, il n'existait jusqu'à présent aucune métrique claire permettant de comparer différentes méthodes le long de la courbe de latence-précision optimale selon Pareto. Nous soulignons une discordance entre l'évaluation hors ligne standard et les applications en temps réel : au moment où un algorithme termine le traitement d'une image particulière, le monde environnant a déjà changé. À cet égard, nous présentons une approche qui intègre de manière cohérente la latence et la précision dans une seule métrique pour la perception en ligne en temps réel, que nous appelons « précision en flux » (streaming accuracy). L'idée centrale derrière cette métrique est d'évaluer conjointement la sortie de l'ensemble de la pile de perception à chaque instant, obligeant ainsi la pile à prendre en compte la quantité de données en flux qui doit être ignorée pendant le calcul. Plus généralement, en nous appuyant sur cette métrique, nous introduisons un méta-benchmark qui convertit systématiquement toute tâche basée sur une seule image en une tâche de perception en flux. Nous nous concentrons sur les tâches illustratives de détection d'objets et de segmentation d'instances dans des flux vidéo urbains, et contribuons avec un nouveau jeu de données doté d'annotations de haute qualité et temporellement densifiques. Nos solutions proposées et leur analyse empirique mettent en lumière plusieurs conclusions surprenantes : (1) il existe un point optimal qui maximise la précision en flux le long de la courbe de latence-précision optimale selon Pareto, (2) le suivi asynchrone et l'anticipation du futur émergent naturellement comme représentations internes permettant la perception en flux, et (3) l'ordonnancement dynamique peut être utilisé pour surmonter l'aliasing temporel, aboutissant au résultat paradoxal selon lequel la latence est parfois minimisée en restant inactif et « ne rien faire ».

Vers la perception en flux continu | Articles de recherche récents | HyperAI