Fusion attentive Radar+RGB pour une détection d'objets robuste dans les véhicules autonomes

Cet article présente deux variantes d'architecture appelées RANet et BIRANet. L'architecture proposée vise à exploiter conjointement les données de signal radar et les images RGB provenant d'une caméra afin de constituer un réseau de détection robuste, fonctionnant efficacement même dans des conditions d'éclairage variables et des environnements météorologiques défavorables tels que la pluie, la poussière, le brouillard, etc. Premièrement, les informations radar sont fusionnées au sein du réseau extracteur de caractéristiques. Deuxièmement, les points radar sont utilisés pour générer des ancres guidées. Troisièmement, une méthode est proposée pour améliorer les cibles du réseau de proposition de régions (RPN). BIRANet atteint des performances de 72,3 % / 75,3 % en moyenne AP/AR sur le jeu de données NuScenes, surpassant ainsi les résultats obtenus par notre réseau de base, Faster-RCNN avec Feature Pyramid Network (FFPN). RANet obtient quant à lui 69,6 % / 71,9 % en moyenne AP/AR sur le même jeu de données, offrant ainsi des performances raisonnablement satisfaisantes. En outre, les deux architectures, BIRANet et RANet, ont été évaluées comme robustes face au bruit.