Détection d'objets en temps réel pour la perception en flux

La conduite autonome exige que le modèle perçoive l’environnement et réagisse (ou se réajuste) en temps réel afin de garantir la sécurité. Alors que les travaux antérieurs négligent les changements inévitables de l’environnement durant le traitement, la perception en flux (streaming perception) a été proposée pour intégrer conjointement la latence et l’exactitude dans une seule métrique, adaptée à la perception en ligne des vidéos. Dans cet article, au lieu de chercher un compromis entre précision et vitesse comme dans les approches antérieures, nous soulignons que doter les modèles en temps réel de la capacité à prédire l’avenir est la clé pour résoudre ce problème. Nous proposons un cadre simple et efficace pour la perception en flux, qui intègre un nouveau module de perception DualFlow (DFP), comprenant un flux dynamique et un flux statique pour capturer à la fois la tendance du mouvement et les caractéristiques de détection fondamentales, afin de réaliser une prédiction en continu. Par ailleurs, nous introduisons une fonction de perte orientée vers la tendance (Trend-Aware Loss, TAL), combinée à un facteur de tendance, pour générer des poids adaptatifs en fonction des vitesses de déplacement des objets. Notre méthode simple atteint des performances compétitives sur le jeu de données Argoverse-HD, améliorant l’AP de 4,9 % par rapport à une base solide, ce qui valide son efficacité. Le code source sera rendu disponible à l’adresse suivante : https://github.com/yancie-yjr/StreamYOLO.