HyperAIHyperAI

Command Palette

Search for a command to run...

Fort mais simple : Une ligne de base pour la perception dense généralisée aux domaines par apprentissage par transfert basé sur CLIP

Christoph Hümmer Manuel Schwonberg Liangwei Zhou Hu Cao Alois Knoll Hanno Gottschalk

Résumé

La généralisation de domaine (DG) reste un défi majeur pour la perception basée sur les réseaux neuronaux profonds (DNNs), où les écarts de domaine surviennent en raison de données synthétiques, d'éclairage, de météo ou de changements de localisation. Les modèles vision-langue (VLMs) ont marqué une avancée importante dans les capacités de généralisation et ont déjà été appliqués à diverses tâches. Très récemment, les premières approches ont utilisé des VLMs pour la segmentation et la détection d'objets généralisées à différents domaines, obtenant ainsi une forte généralisation. Cependant, toutes ces approches reposent sur des modules complexes, des cadres d'augmentation de caractéristiques ou des modèles supplémentaires. De manière surprenante et contrairement à cela, nous avons découvert que l'affinage simple des modèles pré-entraînés vision-langue produit des résultats de généralisation compétitifs voire supérieurs tout en étant extrêmement facile à mettre en œuvre. De plus, nous avons constaté que l'entraînement préalable vision-langue fournit systématiquement une meilleure généralisation que le précédent standard d'entraînement préalable uniquement visuel. Cela remet en question l'utilisation standard du transfert d'apprentissage basé sur ImageNet pour la généralisation de domaine. L'affinage complet d'un modèle pré-entraîné vision-langue est capable d'atteindre l'état de l'art en matière de généralisation de domaine lorsqu'il est entraîné sur le jeu de données synthétique GTA5. De plus, nous confirmons cette observation pour la détection d'objets sur un nouveau banc d'essai synthétique-réel. Nous obtenons également des capacités supérieures de généralisation avec un score de 77,9 % mIoU sur le banc d'essai populaire Cityscapes-to-ACDC. Nous avons également constaté une amélioration significative de la généralisation intra-domaine, conduisant à un nouvel état de l'art avec un score de 86,4 % mIoU sur l'ensemble de test Cityscapes, ce qui marque notre première place au classement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Fort mais simple : Une ligne de base pour la perception dense généralisée aux domaines par apprentissage par transfert basé sur CLIP | Articles | HyperAI