HAPNet : Vers une meilleure analyse de scène RGB-thermique par fusion hybride, asymétrique et progressive de caractéristiques hétérogènes

Les réseaux de fusion de données ont montré un potentiel significatif pour l'analyse de scènes RGB-thermiques. Cependant, la majorité des études existantes ont reposé sur des encodeurs duplex symétriques pour l'extraction et la fusion de caractéristiques hétérogènes, accordant une attention insuffisante aux différences inhérentes entre les modalités RGB et thermiques. Les progrès récents dans les modèles fondamentaux de vision (MVF) formés par auto-supervision sur d'importants volumes de données non étiquetées ont démontré leur capacité à extraire des caractéristiques informatives et polyvalentes. Toutefois, ce potentiel n'a pas encore été pleinement exploité dans ce domaine. Dans cette étude, nous franchissons une étape vers cette nouvelle zone de recherche en explorant une stratégie viable pour tirer pleinement parti des caractéristiques MVF pour l'analyse de scènes RGB-thermiques. Plus précisément, nous examinons en profondeur les caractéristiques uniques des modalités RGB et thermiques, ce qui nous amène à concevoir un encodeur hybride asymétrique intégrant à la fois un MVF et un réseau neuronal convolutif. Cette conception permet une extraction plus efficace de caractéristiques hétérogènes complémentaires, qui sont ensuite fusionnées selon une méthode progressive à double voie. De plus, nous introduisons une tâche auxiliaire pour enrichir davantage les sémantiques locales des caractéristiques fusionnées, améliorant ainsi les performances globales de l'analyse de scènes RGB-thermiques. Notre HAPNet proposé, doté de tous ces éléments, montre des performances supérieures comparées à toutes les autres réseaux d'analyse de scènes RGB-thermiques d'avant-garde, obtenant les meilleures places sur trois jeux de données publics largement utilisés pour l'analyse de scènes RGB-thermiques. Nous croyons que ce nouveau paradigme a ouvert de nouvelles opportunités pour le développement futur des approches d'analyse de scènes par fusion de données.