Voir à travers le brouillard sans le voir : Fusion profonde de capteurs multimodaux dans des conditions météorologiques défavorables inconnues

La fusion de flux de capteurs multimodaux, tels que les mesures issues des caméras, des lidars et des radars, joue un rôle crucial dans la détection d'objets pour les véhicules autonomes, qui basent leurs prises de décision sur ces entrées. Bien que les méthodes existantes exploitent l'information redondante dans de bonnes conditions environnementales, elles échouent en cas de mauvais temps où les flux sensoriels peuvent être asymétriquement distordus. Ces rares scénarios « edge-case » ne sont pas représentés dans les jeux de données disponibles, et les architectures de fusion existantes ne sont pas conçues pour les gérer. Pour relever ce défi, nous présentons un nouveau jeu de données multimodal acquis lors de plus de 10 000 km de conduite en Europe du Nord. Bien que ce jeu de données soit le premier grand ensemble multimodal en conditions météorologiques défavorables, avec 100 000 étiquettes pour les lidars, caméras, radars et capteurs NIR à grille (gated NIR sensors), il ne facilite pas l'entraînement car le mauvais temps est rare. À cet effet, nous présentons un réseau de fusion profonde permettant une fusion robuste sans nécessiter un corpus important de données d'entraînement étiquetées couvrant toutes les distorsions asymétriques. Nous proposons un modèle à détection directe qui fusionne adaptativement les caractéristiques, guidé par l'entropie des mesures. Nous validons la méthode proposée, entraînée sur des données propres, sur notre vaste ensemble de données de validation. Le code et les données sont disponibles ici : https://github.com/princeton-computational-imaging/SeeingThroughFog.