HyperAIHyperAI
il y a 2 mois

Fort mais simple : Une ligne de base pour la perception dense généralisée aux domaines par apprentissage par transfert basé sur CLIP

Christoph Hümmer; Manuel Schwonberg; Liangwei Zhou; Hu Cao; Alois Knoll; Hanno Gottschalk
Fort mais simple : Une ligne de base pour la perception dense généralisée aux domaines par apprentissage par transfert basé sur CLIP
Résumé

La généralisation de domaine (DG) reste un défi majeur pour la perception basée sur les réseaux neuronaux profonds (DNNs), où les écarts de domaine surviennent en raison de données synthétiques, d'éclairage, de météo ou de changements de localisation. Les modèles vision-langue (VLMs) ont marqué une avancée importante dans les capacités de généralisation et ont déjà été appliqués à diverses tâches. Très récemment, les premières approches ont utilisé des VLMs pour la segmentation et la détection d'objets généralisées à différents domaines, obtenant ainsi une forte généralisation. Cependant, toutes ces approches reposent sur des modules complexes, des cadres d'augmentation de caractéristiques ou des modèles supplémentaires. De manière surprenante et contrairement à cela, nous avons découvert que l'affinage simple des modèles pré-entraînés vision-langue produit des résultats de généralisation compétitifs voire supérieurs tout en étant extrêmement facile à mettre en œuvre. De plus, nous avons constaté que l'entraînement préalable vision-langue fournit systématiquement une meilleure généralisation que le précédent standard d'entraînement préalable uniquement visuel. Cela remet en question l'utilisation standard du transfert d'apprentissage basé sur ImageNet pour la généralisation de domaine. L'affinage complet d'un modèle pré-entraîné vision-langue est capable d'atteindre l'état de l'art en matière de généralisation de domaine lorsqu'il est entraîné sur le jeu de données synthétique GTA5. De plus, nous confirmons cette observation pour la détection d'objets sur un nouveau banc d'essai synthétique-réel. Nous obtenons également des capacités supérieures de généralisation avec un score de 77,9 % mIoU sur le banc d'essai populaire Cityscapes-to-ACDC. Nous avons également constaté une amélioration significative de la généralisation intra-domaine, conduisant à un nouvel état de l'art avec un score de 86,4 % mIoU sur l'ensemble de test Cityscapes, ce qui marque notre première place au classement.

Fort mais simple : Une ligne de base pour la perception dense généralisée aux domaines par apprentissage par transfert basé sur CLIP | Articles de recherche récents | HyperAI