HyperAIHyperAI
il y a 15 jours

UniRGB-IR : Un cadre unifié pour les tâches sémantiques visible-infrarouge par ajustement par adaptateur

Maoxun Yuan, Bo Cui, Tianyi Zhao, Jiayi Wang, Shan Fu, Xue Yang, Xingxing Wei
UniRGB-IR : Un cadre unifié pour les tâches sémantiques visible-infrarouge par ajustement par adaptateur
Résumé

L’analyse sémantique d’images visibles (RGB) et infrarouges (IR) a suscité un intérêt croissant en raison de leur précision et robustesse accrues dans des conditions difficiles, telles que l’éclairage faible ou les mauvaises conditions météorologiques. Toutefois, en l’absence de modèles fondamentaux pré-entraînés sur de grandes bases de données d’images infrarouges, les méthodes existantes privilégient la conception de cadres spécifiques à chaque tâche, puis les affinent directement à l’aide de modèles fondamentaux pré-entraînés sur des jeux de données de correspondance sémantique RGB-IR, ce qui entraîne une faible extensibilité et une généralisation limitée. Pour surmonter ces limitations, nous proposons UniRGB-IR, un cadre évolutif et efficace pour les tâches sémantiques RGB-IR, introduisant un mécanisme d’adaptateur novateur permettant d’intégrer efficacement des caractéristiques multimodales riches dans des modèles fondamentaux pré-entraînés sur des données RGB. Notre cadre repose sur trois composants clés : un modèle fondamental de vision transformer (ViT), un module de pool de caractéristiques multimodales (MFP) et un module d’injection de caractéristiques supplémentaires (SFI). Les modules MFP et SFI coopèrent comme un adaptateur pour compléter efficacement les caractéristiques du ViT par des caractéristiques contextuelles à plusieurs échelles. Lors du processus d’entraînement, nous figeons l’intégralité du modèle fondamental afin de préserver les connaissances antérieures, tout en ne mettant à jour que les modules MFP et SFI. En outre, pour valider l’efficacité de notre cadre, nous utilisons ViT-Base comme modèle fondamental pré-entraîné afin de mener des expériences approfondies. Les résultats expérimentaux sur diverses tâches sémantiques RGB-IR démontrent que notre méthode atteint des performances de pointe. Le code source et les résultats sont disponibles à l’adresse suivante : https://github.com/PoTsui99/UniRGB-IR.git.

UniRGB-IR : Un cadre unifié pour les tâches sémantiques visible-infrarouge par ajustement par adaptateur | Articles de recherche récents | HyperAI