Détection d'objets RGB-X par des modules de fusion spécifiques à la scène

La fusion profonde multimodale des capteurs a le potentiel d' permettre aux véhicules autonomes de comprendre visuellement leur environnement périphérique dans toutes les conditions météorologiques. Cependant, les méthodes actuelles de fusion profonde des capteurs utilisent généralement des architectures complexes avec des caractéristiques multimodales entremêlées, nécessitant de grands ensembles de données multimodales coréglés pour l'entraînement. Dans ce travail, nous présentons un réseau de fusion RGB-X efficace et modulaire qui peut exploiter et fusionner des modèles préformés à partir de modalités individuelles grâce à des modules de fusion spécifiques à la scène, permettant ainsi la création d'architectures de réseau adaptatives à l'entrée conjointe en utilisant de petits ensembles de données multimodales coréglés. Nos expériences démontrent la supériorité de notre méthode par rapport aux travaux existants sur les ensembles de données RGB-thermique et RGB-commandée (gated), réalisant la fusion avec seulement une petite quantité de paramètres supplémentaires. Notre code est disponible sur https://github.com/dsriaditya999/RGBXFusion.